首页 > 教程攻略 > ai资讯 >OpenAI 联合英伟达等巨头发布 MRC 协议,重塑大规模 AI 训练网络架构

OpenAI 联合英伟达等巨头发布 MRC 协议,重塑大规模 AI 训练网络架构

来源:互联网 时间:2026-06-14 15:01:40

昨天,OpenAI 发布了一则重磅公告,宣布与 AMD、博通、英特尔、微软及英伟达这五大行业巨头联手,共同推出了一项名为

多路径可靠连接(MRC)

的新协议。这个协议的目标很明确:解决大规模 AI 训练中那些恼人的网络延迟和故障问题。更重要的是,它已经通过开放计算项目(OCP)向全球行业开源了。

image.png

击碎“单点故障”:从三层架构到两层设计的跨越

在传统的大模型训练里,网络拥塞或者某条链路出点小毛病,后果往往很严重。就像推倒了第一块多米诺骨&牌,后面数万块 GPU 可能都得跟着“罚站”,造成的算力浪费堪称天文数字。

为了从根本上提升系统的韧性,MRC 协议祭出了

多平面网络设计

这一招。它的思路很巧妙:把原来单一的800Gb/s大接口,拆分成多个更小的链路。通过这种结构上的优化,整个系统只需要两层交换机,就能支撑起一个大约13.1万块 GPU 的庞大集群。相比过去常见的三层甚至四层架构,这一改动带来的好处是实实在在的:物理组件数量少了,能耗降了,整体建设成本也显著降低了。

流量调度新方案:数据包“喷淋”与微秒级自愈

除了在架构上做减法,MRC 在流量调度上也玩出了新花样。它采用了一种叫

自适应数据包喷淋

的技术。顾名思义,这项技术打破了传统“一条路走到黑”的传输模式,而是把任务数据包打散,像喷淋一样分发到数百条路径上并行传输。就算数据包在路上“跑”乱了顺序,接收端也有本事精准地重组回来。这样一来,核心网络里某个局部堵车,就再也影响不了整体任务了。

在网络控制层面,MRC 的做法也相当“叛逆”。它直接抛弃了像 BGP 那样复杂的动态路由协议,转而采用

SRv6源路由技术

。这意味着路径由发送端直接指定,交换机只需要按图索骥,执行简单的静态转发就行。这种设计带来的最大红利,就是把网络故障的恢复时间,从过去的“秒级”一下子压缩到了“微秒级”。面对链路抖动,系统几乎能做到“无感自愈”,这体验提升可不是一星半点。

落地实测:超级计算机的“防抖”利器

目前,MRC 协议已经不再是纸上谈兵。它已经在英伟达的 GB200 超级计算机以及甲骨文的云基础设施中投入了实际应用。实测数据给出了有力的证明:在真实的 AI 训练场景下,即便遭遇链路抖动甚至交换机重启这类突发状况,MRC 也能自动、迅速地绕过故障点,确保那些动辄数周、耗资巨大的训练任务不会因此中断。

可以说,这项协议的开源,标志着一个清晰的趋势:AI 基础设施的发展,正在从早期的“暴力堆料”阶段,迈向追求“精细化架构”的新时代。通过行业巨头间的这次协作,AI 训练网络的未来图景正变得愈发清晰——更坚韧、更高效,也更具灵活性。