训练框架·更新于 2026/04/22 10:20

DiLoCo 解耦：分布式训练容错的新范式

Google DeepMind 提出 Decoupled DiLoCo，一种面向大规模分布式 AI 训练的容错训练算法。核心思路是将 DiLoCo 的同步屏障与梯度聚合解耦，允许部分工作节点落后或临时失效而不阻塞全局训练进度。技术关键包括：异步局部更新 + 全局同步的松耦合设计，以及基于 staleness 感知的梯度聚合策略。实验表明在节点故障率高达 10% 的场景下，训练吞吐仅下降约 15%，而标准 DiLoCo 和 All-Reduce 方案几乎无法收敛。

速读

DiLoCo 解耦通过异步局部与全局同步，在容忍10%节点故障时仅降15%吞吐

DiLoCo 解耦：分布式训练容错的新范式

相关源 (1)