英伟达开源TwoTower AI模型:双塔架构如何实现2.42倍生成加速与98.7%质量保留

英伟达开源TwoTower AI模型:双塔架构如何实现 2.42 倍生成加速与 98.7% 质量保留
摘要: 英伟达于2026年7月正式开源 Nemotron-Labs-TwoTower,这是一款基于预训练自回归骨干网络的离散扩散语言模型。该英伟达开源TwoTower AI 模型采用双塔解耦架构,将60B总参数的模型拆分为冻结的上下文塔与可训练的去噪塔。在2×H100环境下,该模型实现2.42倍生成吞吐量提升,同时保留基线模型98.7%的聚合基准质量。模型以开放权重形式在Hugging Face发布,授权协议支持商业用途。

1. 英伟达开源 TwoTower AI 模型的诞生背景
1.1 自回归模型面临的生成效率瓶颈
当前大规模语言模型普遍采用自回归(Autoregressive,AR)解码方式——逐 token 从左到右串行生成,每个新 token 都需要将完整权重矩阵从 GPU 显存加载后才能进行计算。在低批量大小场景下——即交互式对话、智能体循环和 API 调用的典型工作条件——这种推理模式使得 GPU 绝大部分时间消耗在数据搬运而非实际计算上,形成显存带宽受限而非计算受限的瓶颈。
1.2 扩散语言模型的历史局限
离散扩散语言模型通过将逐 token 串行生成替换为迭代式块去噪来解决这一问题。扩散 LM 从掩码或带噪声的位置块出发,在多个步骤中并行精炼所有位置,提前确定置信度高的 token,继续精炼不确定的部分。然而,此前的扩散 LM 将两个相互冲突的任务分配给单一网络:既要表示已确定的干净上下文 token,又要对正在生成的带噪声块进行去噪。迫使一个网络同时承担两种角色,严重限制了它在任一方向上的表现能力。
1.3 英伟达的解耦思路与研发动机
英伟达研究团队基于在 GPU 硬件、深度学习框架和大语言模型领域的深厚积累,提出了将这两种角色干净利落地分离到两个独立网络中的方案。研发动机源于传统扩散语言模型使用单一网络同时承担“上下文理解”和“迭代去噪”两个角色,导致两者互相掣肘。英伟达开源 TwoTower AI 模型的核心贡献在于证明了扩散生成可以在几乎不损失质量的前提下实现大幅加速,打破了此前“扩散模型慢但质量好”或“自回归模型快但质量优”的固有认知。
2. 英伟达开源 TwoTower AI 模型的技术架构
2.1 双塔分离设计的核心思想
英伟达开源 TwoTower AI 模型采用双塔解耦设计:一方面完全冻结预训练好的自回归大模型作为只读上下文塔,以保留完整的推理和常识能力;另一方面单独训练一个去噪写字塔,在层级别通过交叉注意力读取上下文信息。这一设计将文本生成任务中的上下文表示与去噪过程分离到两个独立的神经网络“塔”中。
2.2 上下文塔:冻结的自回归骨干网络
上下文塔基于 Nemotron-3-Nano-30B-A3B 骨干网络构建,这是一个 300 亿参数的混合模型,在 52 层中交错排布了三种类型的层——23 层 Mamba-2、6 层自注意力层和 23 层混合专家层。上下文塔保持完全冻结状态,采用因果注意力处理干净 token,专注于维护文本的自回归上下文。冻结策略的核心优势在于:模型无需从头重新训练,仅需在原有预训练检查点基础上叠加扩散式并行生成能力。
2.3 去噪塔:可训练的扩散生成模块
去噪塔同样基于相同的 30B 骨干网络构建,但被设计为可训练状态。它通过双向块注意力处理带噪声的 token 块,并通过交叉注意力机制从上下文塔读取语义指导信息。去噪塔采用置信度去掩码机制,在迭代过程中逐步确定高置信度的 token。两个塔通过逐层交叉注意力连接协作,确保去噪过程始终在上下文的语义约束下进行。
2.4 混合专家与稀疏激活机制
英伟达开源 TwoTower AI 模型的总参数量约为 60B(两个 30B 塔),但实际推理时每个 token 每塔仅激活约 30 亿参数。这一高效计算得益于 MoE(Mixture of Experts)稀疏激活机制:模型配置了 128 个可路由专家,每个 token 激活其中 6 个专家,同时伴随 2 个共享专家。稀疏激活机制使得该英伟达开源 TwoTower AI 模型在保持 60B 总参数容量的同时,实际计算开销仅相当于 3B 活跃参数的模型。
3. 英伟达开源 TwoTower AI 模型的训练与推理机制
3.1 训练数据与策略
英伟达开源 TwoTower AI 模型基于 Nemotron-3-Nano-30B-A3B 构建,在约 2.1T tokens 上完成训练。训练的核心策略并非重新预训练整个模型,而是在已有自回归检查点的基础上,仅训练第二个去噪网络,所需数据预算仅为原始训练数据的一小部分。这种训练策略极大地降低了扩散语言模型转型的经济门槛。
3.2 三种推理模式详解
英伟达开源 TwoTower AI 模型具备极高的灵活性,单一检查点支持三种不同的解码方式,开发者可根据任务需求自由选择。
Mask Diffusion 模式:采用掩码扩散迭代生成策略,适合对生成质量要求较高的场景。该模式充分发挥扩散模型的并行迭代优势,在多个去噪步骤中逐步精炼所有 token 位置。
Mock-AR 模式:模拟自回归解码顺序,在速度与质量之间取得平衡。该模式兼顾了扩散模型的并行优势与自回归的序列一致性。
AR-only 模式:完全使用自回归方式生成,适合对延迟极度敏感的场景。在此模式下,模型回退为标准 AR 解码,无需切换模型即可适配低延迟需求。
3.3 推理硬件需求
在推理部署方面,完整的双塔模型需要 2 块 GPU,每块在 BF16 精度下约占用 59GB 显存。AR-only 模式则可在单块 80GB GPU 上运行。这一硬件需求为不同规模的基础设施提供了灵活的部署选项。
4. 英伟达开源 TwoTower AI 模型的性能表现
4.1 综合基准测试结果
英伟达在多个标准基准测试上对英伟达开源 TwoTower AI 模型进行了全面评估。以下为关键测试结果对比:
| 基准测试 | Nemotron-3-Nano-30B-A3B (AR) | Nemotron-Labs-TwoTower (Diffusion) |
|---|---|---|
| MMLU (5-shot, acc) | 78.56 | 78.24 |
| MMLU-Pro (5-shot, CoT EM) | 62.59 | 60.93 |
| ARC-Challenge (25-shot, acc_norm) | 91.72 | 92.66 |
| WinoGrande (5-shot, acc) | 76.09 | 76.09 |
| RACE (0-shot, acc) | 88.90 | 88.90 |
| HumanEval (0-shot) | 79.27 | 75.58 |
| MBPP-Sanitized (3-shot) | 74.71 | 74.28 |
| GSM8K (8-shot, acc) | 92.49 | 90.14 |
| MATH-500 (4-shot) | 84.40 | 80.60 |
| MMLU Global Lite (5-shot) | 73.97 | 73.94 |
| MGSM (8-shot, avg acc) | 80.80 | 80.40 |
| 质量保留 | 100% | 98.7% |
| 生成吞吐量 | 1.0× | 2.42× |
在 11 项基准测试中,英伟达开源 TwoTower AI 模型在 ARC-Challenge 上甚至超越了基线(91.72→92.66),在 WinoGrande 和 RACE 上持平。聚合质量保留达到 98.7%,而生成吞吐量提升至 2.42 倍。
4.2 代码生成与数学推理的性能特点
值得注意的是,英伟达开源 TwoTower AI 模型在代码生成(HumanEval:79.27→75.58)和数学推理(MATH-500:84.40→80.60)任务上相较于原始基线有轻微性能回落。这一现象反映了扩散生成范式在结构化、逻辑密集型任务中仍需进一步优化,但也为后续研究方向指明了改进空间。
4.3 质量-速度权衡的商业价值
英伟达开源 TwoTower AI 模型以不足 1.3% 的质量损失换取 2.42 倍的吞吐量提升。对于需要大规模文本生成的场景——如合成数据生产、批量内容生成等——这一权衡极具吸引力。运行高吞吐量推理的企业可将 GPU 小时消耗降低一半以上。
5. 英伟达开源 TwoTower AI 模型的开源生态与部署
5.1 开源发布与授权协议
英伟达于 2026 年 7 月 1 日至 2 日期间正式发布并开源了 Nemotron-Labs-TwoTower。该英伟达开源 TwoTower AI 模型以开放权重形式在 Hugging Face 平台发布,授权协议为 NVIDIA Nemotron Open Model License。该协议完全支持商业用途,为开发者社区提供了无障碍的模型获取和使用通道。
5.2 开源权重与代码
英伟达开源 TwoTower AI 模型的研究团队发布了开放权重和训练代码。权重可在 Hugging Face 的 NVIDIA Nemotron TwoTower 集合中获取。开源内容包括完整的模型权重、推理代码以及参考实现,方便开发者快速集成和二次开发。
5.3 部署场景与集成路径
英伟达开源 TwoTower AI 模型适用于多种部署场景:实时客户支持系统可获得可测量的吞吐量提升;SaaS 服务提供商可在相同硬件基础上增加请求处理容量;AI Agent 研发团队可获得更低门槛的模型选型方案。NVIDIA 提供了参考代码以简化双塔调度器与现有推理引擎的集成工作。
6. 英伟达开源 TwoTower AI 模型与现有技术的横向对比
6.1 与传统自回归模型的架构对比
传统自回归模型采用逐 token 串行解码,每个前向传播生成一个 token。英伟达开源 TwoTower AI 模型则通过双塔并行机制,在每次迭代中可同时确定多个 token。这种并行化直接转化为端到端的生成加速。
| 对比维度 | 传统自回归模型 | 英伟达开源 TwoTower AI 模型 |
|---|---|---|
| 解码方式 | 逐 token 串行 | 迭代式块并行 |
| 上下文与生成 | 同一网络承担 | 双塔分离(冻结上下文塔 + 可训练去噪塔) |
| 推理吞吐量 | 基线(1.0×) | 2.42× |
| 质量保留 | 100% | 98.7% |
| 训练成本 | 完整预训练 | 仅训练去噪塔 |
| 稀疏激活 | 无 | MoE,每塔每 token 激活 3B 参数 |
| 推理模式 | 单一(AR) | 三种(扩散/Mock-AR/AR-only) |
6.2 与传统扩散语言模型的架构对比
传统扩散语言模型使用单一网络同时处理上下文编码和迭代去噪。英伟达开源 TwoTower AI 模型通过双塔解耦,使两个角色各司其职。这一设计避免了单一网络“身兼两职”导致的性能瓶颈。
| 对比维度 | 传统扩散语言模型 | 英伟达开源 TwoTower AI 模型 |
|---|---|---|
| 网络结构 | 单一网络 | 双塔分离 |
| 上下文处理 | 与去噪共享参数 | 冻结的 AR 上下文塔专用 |
| 去噪方式 | 单一网络迭代 | 专用去噪塔 + 交叉注意力 |
| 参数效率 | 全部激活 | MoE 稀疏激活 |
| 推理灵活性 | 有限 | 三种模式可切换 |
6.3 与推测解码等加速方法的定位差异
推测解码(Speculative Decoding)和推测采样等方法同样致力于加速 LLM 推理。英伟达开源 TwoTower AI 模型的独特之处在于:它不需要从头训练新模型,而是基于已有预训练检查点叠加扩散生成能力。这一特性使得已拥有自回归模型检查点的团队可以以较低成本迁移至扩散式并行生成。行业预测显示,TwoTower 式扩散解码有望在未来两年内成为下一代推理堆栈的标准配置。
7. 英伟达开源 TwoTower AI 模型的技术创新点
7.1 块级自回归扩散的范式创新
英伟达开源 TwoTower AI 模型提出了一种块级自回归扩散方法,将传统扩散模型中的“上下文理解”与“去噪生成”两个角色解耦。上下文塔采用因果注意力处理干净 token,去噪塔采用双向块注意力通过交叉注意力精炼噪声块。这种范式创新打破了扩散模型必须从零训练或牺牲质量换取速度的传统认知。
7.2 无需重新训练的迁移策略
英伟达开源 TwoTower AI 模型最显著的经济价值在于:它证明了已有一个自回归检查点的团队可以通过仅训练第二个去噪网络来获得扩散式并行生成能力。该架构没有丢弃模型已学到的知识,而是在其基础上叠加了并行生成能力。这将对扩散语言模型的经济性产生深远影响。
7.3 三种推理模式的统一检查点
英伟达开源 TwoTower AI 模型的单一检查点同时支持 Mask Diffusion、Mock-AR 和 AR-only 三种推理方式。用户无需切换模型即可灵活适配不同延迟与质量需求场景。这种设计极大降低了模型部署和运维的复杂度。
8. 英伟达开源 TwoTower AI 模型的应用场景与未来展望
8.1 合成数据生成
对于需要批量生产合成文本的数据团队而言,英伟达开源 TwoTower AI 模型兼具高性能与高效率。2.42 倍的吞吐量提升意味着在相同硬件和时间预算下可生成超过两倍的数据量,显著降低合成数据生产的计算成本。
8.2 实时交互式应用
在实时客户支持、交互式内容创作等对延迟敏感的应用中,英伟达开源 TwoTower AI 模型的可测量吞吐量提升可直接转化为更高的用户参与度和更流畅的交互体验。AR-only 模式进一步为极端低延迟场景提供了专门优化路径。
8.3 边缘设备与端侧 AI
市场预测显示,TwoTower 式扩散解码将在智能手机和汽车系统等边缘设备上加速落地,其中延迟预算极为紧张。英伟达开源 TwoTower AI 模型的高效推理特性为端侧 AI 功能开辟了新的可能性。
8.4 行业竞争格局
英伟达、Google 和 Meta 等主要厂商已在探索类似的并行生成策略。英伟达开源 TwoTower AI 模型的发布为这一技术方向树立了重要的开源参考实现,有望推动整个行业向更高效的推理架构演进。
9. 英伟达开源 TwoTower AI 模型的局限与挑战
9.1 代码与数学推理的性能回落
如前文基准测试所示,英伟达开源 TwoTower AI 模型在 HumanEval(代码生成)和 MATH-500(数学推理)等任务上较基线有 3%-4% 的性能下降。这表明扩散生成范式在需要精确逻辑推理和结构化输出的任务中仍有优化空间。
9.2 显存与硬件要求
完整的双塔推理需要 2 块 GPU,每块约 59GB 显存(BF16 精度)。虽然 MoE 稀疏激活大幅降低了计算开销,但显存占用仍对部分中小规模部署构成挑战。
9.3 扩散过程的偏差审计
尽管该技术不改变模型输出的基本内容,但组织在部署时仍应审计扩散过程中可能引入的任何偏差。最佳实践包括透明披露响应由加速扩散生成而非纯自回归方式产生。
10. 英伟达开源 TwoTower AI 模型的行业意义总结
英伟达开源 TwoTower AI 模型的发布标志着大语言模型推理效率优化的重要里程碑。通过双塔解耦架构,该模型在保留 98.7% 基线质量的前提下实现了 2.42 倍的生成吞吐量提升。更为重要的是,它证明了基于已有自回归检查点迁移至扩散生成的可能性,无需承担完整的重新预训练成本。
从技术演进的角度看,英伟达开源 TwoTower AI 模型为扩散语言模型在工业级部署中开辟了新路径。其 MoE 稀疏激活机制、三种推理模式切换以及开放权重商业授权等特性,共同构成了一套完整的、可落地的加速推理解决方案。
随着人工智能应用向高频、大规模场景持续渗透,通过算法架构优化来换取生成速度的思路正在成为模型研发的新趋势。英伟达开源 TwoTower AI 模型在这一趋势中提供了极具参考价值的开源实践。
常见问题(FAQ)
问:英伟达开源 TwoTower AI 模型的总参数量是多少?
英伟达开源 TwoTower AI 模型的总参数量为 60B,由两个 30B 的塔组成——自回归上下文塔和扩散去噪塔。推理时每个塔每 token 仅激活约 3B 参数。
问:英伟达开源 TwoTower AI 模型与传统的双塔推荐模型有何区别?
传统双塔模型(如 YouTube 和 Google Play 采用的方案)通常用于推荐系统中的用户-物品匹配,由用户塔和物品塔组成。英伟达开源 TwoTower AI 模型则是用于语言生成的双塔扩散架构,将上下文编码与去噪生成分离。两者虽然共享“双塔”之名,但解决的问题域和架构设计完全不同。
问:英伟达开源 TwoTower AI 模型支持哪些推理模式?
英伟达开源 TwoTower AI 模型支持三种推理模式:Mask Diffusion 模式(高质量迭代生成)、Mock-AR 模式(模拟自回归,兼顾速度与质量)和 AR-only 模式(完全自回归,适合低延迟场景)。
问:使用英伟达开源 TwoTower AI 模型需要什么样的硬件配置?
完整的双塔推理需要 2 块 GPU,每块在 BF16 精度下约占用 59GB 显存。AR-only 模式可在单块 80GB GPU 上运行。
问:英伟达开源 TwoTower AI 模型的授权协议是否支持商业使用?
是的。该模型遵循 NVIDIA Nemotron 开放模型许可协议发布,完全支持商业用途。
问:英伟达开源 TwoTower AI 模型是否可以基于已有模型迁移,而不需要从头训练?
可以。该架构的核心优势之一就是无需重新预训练——已有自回归模型检查点的团队可以仅训练第二个去噪网络来获得扩散式并行生成能力。
问:英伟达开源 TwoTower AI 模型在哪些基准测试上表现优异?
在 ARC-Challenge 上甚至超越了基线(92.66 vs 91.72),在 WinoGrande 和 RACE 上持平基线。聚合质量保留达到 98.7%。
问:英伟达开源 TwoTower AI 模型在哪些任务上有性能回落?
在代码生成(HumanEval)和数学推理(MATH-500)任务上较基线有 3%-4% 的性能下降。
问:在哪里可以获取英伟达开源 TwoTower AI 模型?
该模型以开放权重形式在 Hugging Face 平台发布,可在 NVIDIA Nemotron TwoTower 集合中获取。
问:英伟达开源 TwoTower AI 模型的训练数据量是多少?
该模型基于 Nemotron-3-Nano-30B-A3B 构建,在约 2.1T tokens 上完成训练。



