训练框架·更新于 2026/04/22 10:20
DiLoCo 解耦:分布式训练容错的新范式
Google DeepMind 提出 Decoupled DiLoCo,一种面向大规模分布式 AI 训练的容错训练算法。核心思路是将 DiLoCo 的同步屏障与梯度聚合解耦,允许部分工作节点落后或临时失效而不阻塞全局训练进度。技术关键包括:异步局部更新 + 全局同步的松耦合设计,以及基于 staleness 感知的梯度聚合策略。实验表明在节点故障率高达 10% 的场景下,训练吞吐仅下降约 15%,而标准 DiLoCo 和 All-Reduce 方案几乎无法收敛。
速读
DiLoCo 解耦通过异步局部与全局同步,在容忍10%节点故障时仅降15%吞吐
相关源 (1)
- DeepMind Blog · 2026/4/22 10:20:03https://deepmind.google/blog/decoupled-diloco/