首页

手游

资讯

专题

首页 > 教程攻略 > ai资讯 >英伟达MoE新开源：一行import，微调加速3.7倍

英伟达MoE新开源：一行import，微调加速3.7倍

来源：互联网时间：2026-06-26 13:42:10

英伟达最近放出了一个相当实用的新工具。只需要在代码里加一行import，MoE大模型微调的速度就能直接拉到

3.7倍

。

这个新方案叫做

NeMo AutoModel

，专门为了大规模构建和微调生成式AI模型而设计，现在已经在GitHub上开源了。

它的底子是Hugging Face Transformers v5，但英伟达的团队做了些很聪明的工程优化——不改API、不改代码结构，只添一行import，就能让MoE模型的微调效率大幅提升。

实验数据摆在这里：相比Hugging Face原版Transformers v5，NeMo AutoModel在MoE微调中实现了

3.4到3.7倍的训练吞吐提升

，同时GPU显存占用减少了

29%到32%

。

拿Qwen3-30B-A3B来说，在单节点8×H100 80GB GPU上，每GPU每秒吞吐量直接从3075飙到了11340——整整3.69倍。

核心技术解析

MoE已经是当前前沿模型的主流架构了，但想要把它训好，其实门槛不低。

专家并行、通信融合、kernel优化……这些工程细节，每一项都需要配套的基础设施来支撑。

HuggingFace的Transformers v5是目前用得比较多的MoE训练“通用底座”。v5版本增强了对MoE的原生支持，引入了expert backends、dynamic weight loading、分布式执行等一系列基础能力。

英伟达的思路很清晰：站在这个肩膀上，

完全兼容HuggingFace Transformers的API

，让大家

不用大改代码

，就能在MoE微调中拿到更高的训练吞吐和更低的显存占用。

具体来说，NeMo AutoModel在Transformers v5的基础上，集成了三项关键技术：

专家并行（EP）

、

DeepEP

和

TransformerEngine

。

专家并行（Expert Parallelism）

这个技术主要用来降低内存压力。

EP把专家权重分散到了多个GPU上，每张GPU不再完整持有所有expert，只保留其中一部分参数。

举个例子，8张GPU上设置ep_size=8，专家权重就被均匀分布到8块GPU上，

每张GPU的MoE内存占用直接降到原来的1/8

。

从实际测试来看，在Qwen3上，这项技术能将峰值内存从68.2 GiB降到48.1 GiB，降幅29%。对于Nemotron Nanomo模型，内存占用从62.1 GiB降到42.5 GiB，降幅32%。

释放出来的内存空间，可以用来支持更大的批次和更长的序列。

DeepEP

DeepEP的核心思路是让计算和通信“跑在一起”。

传统方式下，token分发和专家计算之间有明显的通信成本。DeepEP把token分发和组合操作整合进优化后的GPU内核，实现了通信过程和专家计算的有效重叠。

TransformerEngine

这个内核为各类核心运算提供了加速。

它提供了融合注意力机制、线性层和RMSNorm等实现，不光加速MoE层，普通Transformer层也能受益。

一行import，3倍速度提升

总结下来，对于已经用上Transformers v5的开发者来说，英伟达NeMo AutoModel提供了一个非常友好的升级路径：

只需加上一行import代码，就能在MoE微调中获得3倍的速度提升。

在Qwen3-30B-A3B和Nemotron 3 Nano 30B-A3B上，相较于Transformers v5，该方案实现了3.4到3.7倍的训练吞吐量提升，内存消耗同步降低了29%到32%。

英伟达还展示了Nemotron 3 Ultra 550B A55B在16个H100节点、128张GPU上的全参数微调结果。

TPS/GPU为815，TFLOP/s/GPU约为293，峰值内存为58.2 GiB。

这里没有跟v5做对比，原因很简单——Transformers v5在这种规模下，直接撑爆内存了。¯\_(ツ)_/¯

代码、配置和基准测试脚本都已经放在GitHub上了，感兴趣的可以自取：https://github.com/NVIDIA-NeMo/Automodel/tree/blog/transformers-v5-automodel/blog_experiments

具体使用指南在这里：https://docs.nvidia.com/nemo/automodel/latest/get-started/hf-compatibility

英伟达MoE新开源：一行import，微调加速3.7倍

3.7倍

NeMo AutoModel

3.4到3.7倍的训练吞吐提升

29%到32%

核心技术解析

完全兼容HuggingFace Transformers的API

不用大改代码

专家并行（EP）

DeepEP

TransformerEngine

专家并行（Expert Parallelism）

每张GPU的MoE内存占用直接降到原来的1/8

DeepEP

TransformerEngine

一行import，3倍速度提升

相关阅读

相关下载