首页 > 教程攻略 > ai资讯 >英伟达MoE新开源:一行import,微调加速3.7倍

英伟达MoE新开源:一行import,微调加速3.7倍

来源:互联网 时间:2026-06-26 13:42:10

英伟达最近放出了一个相当实用的新工具。只需要在代码里加一行import,MoE大模型微调的速度就能直接拉到

3.7倍

这个新方案叫做

NeMo AutoModel

,专门为了大规模构建和微调生成式AI模型而设计,现在已经在GitHub上开源了。

它的底子是Hugging Face Transformers v5,但英伟达的团队做了些很聪明的工程优化——不改API、不改代码结构,只添一行import,就能让MoE模型的微调效率大幅提升。

实验数据摆在这里:相比Hugging Face原版Transformers v5,NeMo AutoModel在MoE微调中实现了

3.4到3.7倍的训练吞吐提升

,同时GPU显存占用减少了

29%到32%

拿Qwen3-30B-A3B来说,在单节点8×H100 80GB GPU上,每GPU每秒吞吐量直接从3075飙到了11340——整整3.69倍。

核心技术解析

MoE已经是当前前沿模型的主流架构了,但想要把它训好,其实门槛不低。

专家并行、通信融合、kernel优化……这些工程细节,每一项都需要配套的基础设施来支撑。

HuggingFace的Transformers v5是目前用得比较多的MoE训练“通用底座”。v5版本增强了对MoE的原生支持,引入了expert backends、dynamic weight loading、分布式执行等一系列基础能力。

英伟达的思路很清晰:站在这个肩膀上,

完全兼容HuggingFace Transformers的API

,让大家

不用大改代码

,就能在MoE微调中拿到更高的训练吞吐和更低的显存占用。

具体来说,NeMo AutoModel在Transformers v5的基础上,集成了三项关键技术:

专家并行(EP)

DeepEP

TransformerEngine

专家并行(Expert Parallelism)

这个技术主要用来降低内存压力。

EP把专家权重分散到了多个GPU上,每张GPU不再完整持有所有expert,只保留其中一部分参数。

举个例子,8张GPU上设置ep_size=8,专家权重就被均匀分布到8块GPU上,

每张GPU的MoE内存占用直接降到原来的1/8

从实际测试来看,在Qwen3上,这项技术能将峰值内存从68.2 GiB降到48.1 GiB,降幅29%。对于Nemotron Nanomo模型,内存占用从62.1 GiB降到42.5 GiB,降幅32%。

释放出来的内存空间,可以用来支持更大的批次和更长的序列。

DeepEP

DeepEP的核心思路是让计算和通信“跑在一起”。

传统方式下,token分发和专家计算之间有明显的通信成本。DeepEP把token分发和组合操作整合进优化后的GPU内核,实现了通信过程和专家计算的有效重叠。

TransformerEngine

这个内核为各类核心运算提供了加速。

它提供了融合注意力机制、线性层和RMSNorm等实现,不光加速MoE层,普通Transformer层也能受益。

一行import,3倍速度提升

总结下来,对于已经用上Transformers v5的开发者来说,英伟达NeMo AutoModel提供了一个非常友好的升级路径:

只需加上一行import代码,就能在MoE微调中获得3倍的速度提升。

在Qwen3-30B-A3B和Nemotron 3 Nano 30B-A3B上,相较于Transformers v5,该方案实现了3.4到3.7倍的训练吞吐量提升,内存消耗同步降低了29%到32%。

英伟达还展示了Nemotron 3 Ultra 550B A55B在16个H100节点、128张GPU上的全参数微调结果。

TPS/GPU为815,TFLOP/s/GPU约为293,峰值内存为58.2 GiB。

这里没有跟v5做对比,原因很简单——Transformers v5在这种规模下,直接撑爆内存了。¯\_(ツ)_/¯

代码、配置和基准测试脚本都已经放在GitHub上了,感兴趣的可以自取:https://github.com/NVIDIA-NeMo/Automodel/tree/blog/transformers-v5-automodel/blog_experiments

具体使用指南在这里:https://docs.nvidia.com/nemo/automodel/latest/get-started/hf-compatibility