OpenAI 联合英伟达等巨头发布 MRC 协议,重塑大规模 AI 训练网络架构
来源:互联网
时间:2026-06-14 15:01:40
昨天,OpenAI 发布了一则重磅公告,宣布与 AMD、博通、英特尔、微软及英伟达这五大行业巨头联手,共同推出了一项名为
多路径可靠连接(MRC)

击碎“单点故障”:从三层架构到两层设计的跨越
在传统的大模型训练里,网络拥塞或者某条链路出点小毛病,后果往往很严重。就像推倒了第一块多米诺骨&牌,后面数万块 GPU 可能都得跟着“罚站”,造成的算力浪费堪称天文数字。
为了从根本上提升系统的韧性,MRC 协议祭出了
多平面网络设计
流量调度新方案:数据包“喷淋”与微秒级自愈
除了在架构上做减法,MRC 在流量调度上也玩出了新花样。它采用了一种叫
自适应数据包喷淋
在网络控制层面,MRC 的做法也相当“叛逆”。它直接抛弃了像 BGP 那样复杂的动态路由协议,转而采用
SRv6源路由技术
落地实测:超级计算机的“防抖”利器
目前,MRC 协议已经不再是纸上谈兵。它已经在英伟达的 GB200 超级计算机以及甲骨文的云基础设施中投入了实际应用。实测数据给出了有力的证明:在真实的 AI 训练场景下,即便遭遇链路抖动甚至交换机重启这类突发状况,MRC 也能自动、迅速地绕过故障点,确保那些动辄数周、耗资巨大的训练任务不会因此中断。
可以说,这项协议的开源,标志着一个清晰的趋势:AI 基础设施的发展,正在从早期的“暴力堆料”阶段,迈向追求“精细化架构”的新时代。通过行业巨头间的这次协作,AI 训练网络的未来图景正变得愈发清晰——更坚韧、更高效,也更具灵活性。