系统与分布式·12 天前OpenAI 开源 MRC 协议:大规模 AI 训练网络的多路径可靠连接OpenAI 通过 OCP 发布 MRC(Multipath Reliable Connection)协议,旨在提升大规模 AI 训练集群网络的弹性与性能。MRC 是一种新的传输层协议,针对 AI 训练中常见的网络拓扑(如 Clos 或 Dragonfly)和 RDMA 通信模式做了专门优化,通过多路径并发与快速重传机制减少链路故障对训练作业的影响。协议已通过 OCP 开放,供社区评估与集成。›1 条相关源
训练框架·24 天前DiLoCo 解耦:分布式训练容错的新范式Google DeepMind 提出 Decoupled DiLoCo,一种面向大规模分布式 AI 训练的容错训练算法。核心思路是将 DiLoCo 的同步屏障与梯度聚合解耦,允许部分工作节点落后或临时失效而不阻塞全局训练进度。技术关键包括:异步局部更新 + 全局同步的松耦合设计,以及基于 staleness 感知的梯度聚合策略。实验表明在节点故障率高达 10% 的场景下,训练吞吐仅下降约 15%,而标准 DiLoCo 和 All-Reduce 方案几乎无法收敛。›1 条相关源