首页 > 教程攻略 > ai资讯 >英伟达双塔 AI 模型开源发布,文本生成速度提升 2.42 倍、画质保留 98.7%

英伟达双塔 AI 模型开源发布,文本生成速度提升 2.42 倍、画质保留 98.7%

来源:互联网 时间:2026-07-04 14:59:11

最近英伟达在7月2日开源了一款有意思的新模型——Nemotron-Labs-TwoTower离散扩散语言模型,目标很明确:解决大模型逐token生成时速度太慢的老大难问题。模型权重已经在Huggingface上开放下载。更关键的是,它并不是从零开始训练的,而是直接基于现有的Nemotron骨干网络改造,复用预训练权重,开发成本因此大幅降低,可以说是个“站在巨人肩膀上”的方案。

image.png

60B 双塔架构,分工并行提升生成效率

这个模型总参数量60B,但拆成了两座各30B的独立神经网络协同工作,每座塔激活3B参数,搭载128个可路由专家模块。具体分工是怎样的?上下文塔是固定冻结的,负责留存全文语义信息;去噪塔则专门训练,依靠扩散机制并行生成文本。两塔之间通过交叉注意力互通数据,相当于一个负责“记笔记”,一个负责“写文章”,各司其职。

传统模型只能逐token串行输出,而双塔架构允许并行写入文本,推理吞吐量自然大幅提升。从多类基准测试的数据来看,模型综合能力保留了原版98.7%的水准,而文本生成吞吐速度直接提升了2.42倍。当然,没有十全十美的事——代码、数学类任务有小幅下滑,但在大多数场景下,这个速度与质量的平衡已经相当令人满意。

开源落地,适配多场景推理部署

该模型采用英伟达专属开源协议开放权重,开发者可以自由下载测试以及商用部署。运行配置上需要两张H100或A100 80GB显卡才能发挥完整双塔推理能力——单卡仅支持纯自回归模式,双塔完整推理必须双卡协同。测试覆盖了常识、数学、代码、阅读理解等多项任务,多数指标与原版基本持平,可以说在生成速度与内容质量之间找到了一个不错的平衡点。