谷歌 DeepMind 推出解耦式 DiLoCo：提升异步训练架构，容忍硬件故障

来源：互联网时间：2026-06-24 14:24:05

谷歌DeepMind新突破：解耦式DiLoCo如何重塑AI分布式训练？

最近，谷歌DeepMind发布了一项名为“解耦式DiLoCo”的新型分布式训练架构。这可不是一次简单的技术迭代，它的目标直指大规模AI模型训练的两个核心痛点：如何提升效率，以及如何在硬件故障频发的现实环境中保持稳定。

传统的大模型训练方式，就像一个需要步调绝对一致的方阵。所有计算单元必须紧密同步，才能完成一次梯度更新。这种模式固然严谨，但弱点也很明显——任何单个硬件节点出了问题，整个训练进程就可能陷入停滞，容错性很低。

那么，解耦式DiLoCo是如何破局的呢？它的思路很巧妙：化整为零，异步协作。具体来说，它将训练任务分散到多个被称为“学习单元”的独立集群中。这些单元就像一个个“计算孤岛”，彼此之间故障隔离。

每个学习单元可以在本地进行多轮梯度计算，积累一定更新后，只将压缩后的梯度信息传递给一个中央协调器（外部优化器）进行汇总。关键在于，这个过程是异步的。这意味着单元A不必等待单元B，即使某个单元临时“掉线”，其他单元依然能继续自己的工作，整个训练流程不会因此卡住。

效果如何？数据给出了有力的回答。在模拟高硬件故障率的压力测试中，解耦式DiLoCo保持了高达88%的硬件利用率，而传统的数据并行训练方法仅为27%。更令人印象深刻的是其对网络带宽需求的极致压缩：它将跨数据中心通信所需的带宽从198 Gbps陡降至0.84 Gbps。这个数字意味着什么？它使得利用现有的商业互联网基础设施进行全球范围的分布式训练，从理论走向了现实。

除了强韧，这套架构还足够“聪明”。在混沌工程测试中，系统展现了出色的自愈能力——即使整个学习单元失效，训练也能继续进行；当该单元恢复后，又能被无缝重新整合进训练流程。这种灵活性还延伸到了硬件层面：它支持不同代数的TPU芯片在同一训练任务中协同工作。这不仅能延长旧有设备的使用寿命，也为应对硬件更新换代期间的算力瓶颈提供了平滑过渡的方案。

划重点：

? 解耦式DiLoCo通过分散训练任务到多个异步学习单元，提高了大规模模型训练的鲁棒性。

? 该架构将跨数据中心带宽需求降低至0.84 Gbps，使得全球分布式训练更加可行。

? 具备自愈能力的解耦式DiLoCo在硬件故障情况下仍能维持高效训练，且支持异构硬件的混合使用。

谷歌 DeepMind 推出解耦式 DiLoCo：提升异步训练架构，容忍硬件故障

谷歌DeepMind新突破：解耦式DiLoCo如何重塑AI分布式训练？

相关阅读

相关下载