首页 > 教程攻略 > ai资讯 >英伟达双塔 AI 模型开源发布，文本生成速度提升 2.42 倍、画质保留 98.7%

英伟达双塔 AI 模型开源发布，文本生成速度提升 2.42 倍、画质保留 98.7%

来源：互联网时间：2026-07-04 14:59:11

最近英伟达在7月2日开源了一款有意思的新模型——Nemotron-Labs-TwoTower离散扩散语言模型，目标很明确：解决大模型逐token生成时速度太慢的老大难问题。模型权重已经在Huggingface上开放下载。更关键的是，它并不是从零开始训练的，而是直接基于现有的Nemotron骨干网络改造，复用预训练权重，开发成本因此大幅降低，可以说是个“站在巨人肩膀上”的方案。

60B 双塔架构，分工并行提升生成效率

这个模型总参数量60B，但拆成了两座各30B的独立神经网络协同工作，每座塔激活3B参数，搭载128个可路由专家模块。具体分工是怎样的？上下文塔是固定冻结的，负责留存全文语义信息；去噪塔则专门训练，依靠扩散机制并行生成文本。两塔之间通过交叉注意力互通数据，相当于一个负责“记笔记”，一个负责“写文章”，各司其职。

传统模型只能逐token串行输出，而双塔架构允许并行写入文本，推理吞吐量自然大幅提升。从多类基准测试的数据来看，模型综合能力保留了原版98.7%的水准，而文本生成吞吐速度直接提升了2.42倍。当然，没有十全十美的事——代码、数学类任务有小幅下滑，但在大多数场景下，这个速度与质量的平衡已经相当令人满意。

开源落地，适配多场景推理部署

该模型采用英伟达专属开源协议开放权重，开发者可以自由下载测试以及商用部署。运行配置上需要两张H100或A100 80GB显卡才能发挥完整双塔推理能力——单卡仅支持纯自回归模式，双塔完整推理必须双卡协同。测试覆盖了常识、数学、代码、阅读理解等多项任务，多数指标与原版基本持平，可以说在生成速度与内容质量之间找到了一个不错的平衡点。

英伟达双塔 AI 模型开源发布，文本生成速度提升 2.42 倍、画质保留 98.7%

60B 双塔架构，分工并行提升生成效率

开源落地，适配多场景推理部署

相关阅读

相关下载