系统与分布式·12 天前OpenAI 开源 MRC 协议:大规模 AI 训练网络的多路径可靠连接OpenAI 通过 OCP 发布 MRC(Multipath Reliable Connection)协议,旨在提升大规模 AI 训练集群网络的弹性与性能。MRC 是一种新的传输层协议,针对 AI 训练中常见的网络拓扑(如 Clos 或 Dragonfly)和 RDMA 通信模式做了专门优化,通过多路径并发与快速重传机制减少链路故障对训练作业的影响。协议已通过 OCP 开放,供社区评估与集成。›1 条相关源