InfoPie · AI · 大模型 · 数据库

5月5日周二

1 条

系统与分布式·12 天前

OpenAI 开源 MRC 协议：大规模 AI 训练网络的多路径可靠连接

OpenAI 通过 OCP 发布 MRC（Multipath Reliable Connection）协议，旨在提升大规模 AI 训练集群网络的弹性与性能。MRC 是一种新的传输层协议，针对 AI 训练中常见的网络拓扑（如 Clos 或 Dragonfly）和 RDMA 通信模式做了专门优化，通过多路径并发与快速重传机制减少链路故障对训练作业的影响。协议已通过 OCP 开放，供社区评估与集成。

4月22日周三

1 条

训练框架·24 天前

DiLoCo 解耦：分布式训练容错的新范式

Google DeepMind 提出 Decoupled DiLoCo，一种面向大规模分布式 AI 训练的容错训练算法。核心思路是将 DiLoCo 的同步屏障与梯度聚合解耦，允许部分工作节点落后或临时失效而不阻塞全局训练进度。技术关键包括：异步局部更新 + 全局同步的松耦合设计，以及基于 staleness 感知的梯度聚合策略。实验表明在节点故障率高达 10% 的场景下，训练吞吐仅下降约 15%，而标准 DiLoCo 和 All-Reduce 方案几乎无法收敛。

5月5日 周二

OpenAI 开源 MRC 协议：大规模 AI 训练网络的多路径可靠连接

4月22日 周三

DiLoCo 解耦：分布式训练容错的新范式

5月5日周二

4月22日周三