OpenAI 联合英伟达等巨头发布 MRC 协议，重塑大规模 AI 训练网络架构

来源：互联网时间：2026-06-14 15:01:40

昨天，OpenAI 发布了一则重磅公告，宣布与 AMD、博通、英特尔、微软及英伟达这五大行业巨头联手，共同推出了一项名为

多路径可靠连接（MRC）

的新协议。这个协议的目标很明确：解决大规模 AI 训练中那些恼人的网络延迟和故障问题。更重要的是，它已经通过开放计算项目（OCP）向全球行业开源了。

击碎“单点故障”:从三层架构到两层设计的跨越

在传统的大模型训练里，网络拥塞或者某条链路出点小毛病，后果往往很严重。就像推倒了第一块多米诺骨&牌，后面数万块 GPU 可能都得跟着“罚站”，造成的算力浪费堪称天文数字。

为了从根本上提升系统的韧性，MRC 协议祭出了

多平面网络设计

这一招。它的思路很巧妙：把原来单一的800Gb/s大接口，拆分成多个更小的链路。通过这种结构上的优化，整个系统只需要两层交换机，就能支撑起一个大约13.1万块 GPU 的庞大集群。相比过去常见的三层甚至四层架构，这一改动带来的好处是实实在在的：物理组件数量少了，能耗降了，整体建设成本也显著降低了。

流量调度新方案:数据包“喷淋”与微秒级自愈

除了在架构上做减法，MRC 在流量调度上也玩出了新花样。它采用了一种叫

自适应数据包喷淋

的技术。顾名思义，这项技术打破了传统“一条路走到黑”的传输模式，而是把任务数据包打散，像喷淋一样分发到数百条路径上并行传输。就算数据包在路上“跑”乱了顺序，接收端也有本事精准地重组回来。这样一来，核心网络里某个局部堵车，就再也影响不了整体任务了。

在网络控制层面，MRC 的做法也相当“叛逆”。它直接抛弃了像 BGP 那样复杂的动态路由协议，转而采用

SRv6源路由技术

。这意味着路径由发送端直接指定，交换机只需要按图索骥，执行简单的静态转发就行。这种设计带来的最大红利，就是把网络故障的恢复时间，从过去的“秒级”一下子压缩到了“微秒级”。面对链路抖动，系统几乎能做到“无感自愈”，这体验提升可不是一星半点。

落地实测:超级计算机的“防抖”利器

目前，MRC 协议已经不再是纸上谈兵。它已经在英伟达的 GB200 超级计算机以及甲骨文的云基础设施中投入了实际应用。实测数据给出了有力的证明：在真实的 AI 训练场景下，即便遭遇链路抖动甚至交换机重启这类突发状况，MRC 也能自动、迅速地绕过故障点，确保那些动辄数周、耗资巨大的训练任务不会因此中断。

可以说，这项协议的开源，标志着一个清晰的趋势：AI 基础设施的发展，正在从早期的“暴力堆料”阶段，迈向追求“精细化架构”的新时代。通过行业巨头间的这次协作，AI 训练网络的未来图景正变得愈发清晰——更坚韧、更高效，也更具灵活性。