OpenAI 发布 MRC 协议 加速大规模 AI 训练
OpenAI 发布 MRC 协议,用于提升大规模 AI 训练集群中的 GPU 网络性能与故障韧性。该协议由 OpenAI 与 AMD、Broadcom、Intel、微软、NVIDIA 合作开发,已通过 Open Compute Project 开放规格。MRC 已部署在 OpenAI 最大规模的 NVIDIA GB200 超算集群中,用于训练多个前沿模型。

OpenAI MRC 协议解决训练网络瓶颈
OpenAI 指出,前沿模型训练依赖稳定的超算网络,因为单个训练步骤可能包含数百万次数据传输。一次传输延迟会扩散到整个同步预训练任务中,导致 GPU 空转。网络拥塞、链路故障和交换机故障是延迟与抖动的主要来源。随着 Stargate 规模扩大,这类问题更频繁,也更难用传统路由方案处理。OpenAI 称,MRC 的目标不是只提高带宽,而是在故障存在时维持可预测性能。
MRC 借助多路径与 SRv6 绕开故障
MRC 全称为 Multipath Reliable Connection,是内置于最新 800Gb/s 网络接口的新协议。OpenAI 表示,MRC 可以把单次传输分散到数百条路径上,并在微秒级绕开故障。该协议扩展了 RoCE,也就是 RDMA over Converged Ethernet。RoCE 是 InfiniBand Trade Association 标准,用于在 GPU 与 CPU 之间启用硬件加速的远程直接内存访问。MRC 还吸收了 Ultra Ethernet Consortium 的相关技术,并引入基于 SRv6 的源路由,以支持大规模 AI 网络结构。
多平面网络让 131000 块 GPU 两层互联
MRC 的关键设计是多平面网络。OpenAI 不再把单个网络接口只视为一条 800Gb/s 链路,而是把它拆成多条较小链路。例如,一个接口可以连接到 8 台不同交换机,形成 8 个并行网络平面,每个平面运行在 100Gb/s。在这种结构下,原本支持 64 个 800Gb/s 端口的交换机,可以改为连接 512 个 100Gb/s 端口。OpenAI 称,这使约 131000 块 GPU 可以只通过两层交换机完全互联,而传统 800Gb/s 网络通常需要三到四层。
GB200 超算已部署 MRC 网络协议
OpenAI 表示,MRC 已部署到其所有最大规模的 NVIDIA GB200 超算中,包括位于得克萨斯州 Abilene、与 Oracle Cloud Infrastructure 合作的站点,以及微软 Fairwater 超算。MRC 已被用于训练多个 OpenAI 模型,相关硬件来自 NVIDIA 与 Broadcom。OpenAI 同时发布了论文 Resilient AI Supercomputer Networking using MRC and SRv6,总结 MRC 与 SRv6 在 AI 超算网络中的部署经验。对训练系统而言,多路径喷洒可以减少核心网络拥塞,静态源路由可以绕过部分故障,并减少路由控制面本身带来的故障类别。 OpenAI MRC 协议的重要性在于,它把训练效率问题从单纯增加 GPU 或带宽,推进到网络拓扑、故障模型与开放标准协同设计。判断其行业影响时仍需看后续采用范围,但规格通过 OCP 开放,意味着更多云厂商、网卡厂商与 AI 实验室可以围绕同一套大规模训练网络协议做互操作。
评论 ···