谷歌 DeepMind 推出解耦式 DiLoCo:提升异步训练架构,容忍硬件故障
谷歌DeepMind新突破:解耦式DiLoCo如何重塑AI分布式训练?
最近,谷歌DeepMind发布了一项名为“解耦式DiLoCo”的新型分布式训练架构。这可不是一次简单的技术迭代,它的目标直指大规模AI模型训练的两个核心痛点:如何提升效率,以及如何在硬件故障频发的现实环境中保持稳定。
传统的大模型训练方式,就像一个需要步调绝对一致的方阵。所有计算单元必须紧密同步,才能完成一次梯度更新。这种模式固然严谨,但弱点也很明显——任何单个硬件节点出了问题,整个训练进程就可能陷入停滞,容错性很低。

那么,解耦式DiLoCo是如何破局的呢?它的思路很巧妙:化整为零,异步协作。具体来说,它将训练任务分散到多个被称为“学习单元”的独立集群中。这些单元就像一个个“计算孤岛”,彼此之间故障隔离。
每个学习单元可以在本地进行多轮梯度计算,积累一定更新后,只将压缩后的梯度信息传递给一个中央协调器(外部优化器)进行汇总。关键在于,这个过程是异步的。这意味着单元A不必等待单元B,即使某个单元临时“掉线”,其他单元依然能继续自己的工作,整个训练流程不会因此卡住。
效果如何?数据给出了有力的回答。在模拟高硬件故障率的压力测试中,解耦式DiLoCo保持了高达88%的硬件利用率,而传统的数据并行训练方法仅为27%。更令人印象深刻的是其对网络带宽需求的极致压缩:它将跨数据中心通信所需的带宽从198 Gbps陡降至0.84 Gbps。这个数字意味着什么?它使得利用现有的商业互联网基础设施进行全球范围的分布式训练,从理论走向了现实。
除了强韧,这套架构还足够“聪明”。在混沌工程测试中,系统展现了出色的自愈能力——即使整个学习单元失效,训练也能继续进行;当该单元恢复后,又能被无缝重新整合进训练流程。这种灵活性还延伸到了硬件层面:它支持不同代数的TPU芯片在同一训练任务中协同工作。这不仅能延长旧有设备的使用寿命,也为应对硬件更新换代期间的算力瓶颈提供了平滑过渡的方案。
划重点:
? 解耦式DiLoCo通过分散训练任务到多个异步学习单元,提高了大规模模型训练的鲁棒性。
? 该架构将跨数据中心带宽需求降低至0.84 Gbps,使得全球分布式训练更加可行。
? 具备自愈能力的解耦式DiLoCo在硬件故障情况下仍能维持高效训练,且支持异构硬件的混合使用。