OpenAI 发布 MRC 协议加速大规模 AI 训练

OpenAI 发布 MRC 协议，用于提升大规模 AI 训练集群中的 GPU 网络性能与故障韧性。该协议由 OpenAI 与 AMD、Broadcom、Intel、微软、NVIDIA 合作开发，已通过 Open Compute Project 开放规格。MRC 已部署在 OpenAI 最大规模的 NVIDIA GB200 超算集群中，用于训练多个前沿模型。

OpenAI MRC 协议解决训练网络瓶颈

OpenAI 指出，前沿模型训练依赖稳定的超算网络，因为单个训练步骤可能包含数百万次数据传输。一次传输延迟会扩散到整个同步预训练任务中，导致 GPU 空转。网络拥塞、链路故障和交换机故障是延迟与抖动的主要来源。随着 Stargate 规模扩大，这类问题更频繁，也更难用传统路由方案处理。OpenAI 称，MRC 的目标不是只提高带宽，而是在故障存在时维持可预测性能。大规模训练网络拥塞对比图

MRC 全称为 Multipath Reliable Connection，是内置于最新 800Gb/s 网络接口的新协议。OpenAI 表示，MRC 可以把单次传输分散到数百条路径上，并在微秒级绕开故障。该协议扩展了 RoCE，也就是 RDMA over Converged Ethernet。RoCE 是 InfiniBand Trade Association 标准，用于在 GPU 与 CPU 之间启用硬件加速的远程直接内存访问。MRC 还吸收了 Ultra Ethernet Consortium 的相关技术，并引入基于 SRv6 的源路由，以支持大规模 AI 网络结构。 MRC 多路径转发与故障绕行流程图

多平面网络让 131000 块 GPU 两层互联

MRC 的关键设计是多平面网络。OpenAI 不再把单个网络接口只视为一条 800Gb/s 链路，而是把它拆成多条较小链路。例如，一个接口可以连接到 8 台不同交换机，形成 8 个并行网络平面，每个平面运行在 100Gb/s。在这种结构下，原本支持 64 个 800Gb/s 端口的交换机，可以改为连接 512 个 100Gb/s 端口。OpenAI 称，这使约 131000 块 GPU 可以只通过两层交换机完全互联，而传统 800Gb/s 网络通常需要三到四层。

GB200 超算已部署 MRC 网络协议

OpenAI 表示，MRC 已部署到其所有最大规模的 NVIDIA GB200 超算中，包括位于得克萨斯州 Abilene、与 Oracle Cloud Infrastructure 合作的站点，以及微软 Fairwater 超算。MRC 已被用于训练多个 OpenAI 模型，相关硬件来自 NVIDIA 与 Broadcom。OpenAI 同时发布了论文 Resilient AI Supercomputer Networking using MRC and SRv6，总结 MRC 与 SRv6 在 AI 超算网络中的部署经验。对训练系统而言，多路径喷洒可以减少核心网络拥塞，静态源路由可以绕过部分故障，并减少路由控制面本身带来的故障类别。 OpenAI MRC 协议的重要性在于，它把训练效率问题从单纯增加 GPU 或带宽，推进到网络拓扑、故障模型与开放标准协同设计。判断其行业影响时仍需看后续采用范围，但规格通过 OCP 开放，意味着更多云厂商、网卡厂商与 AI 实验室可以围绕同一套大规模训练网络协议做互操作。

OpenAI 发布 MRC 协议加速大规模 AI 训练

OpenAI MRC 协议解决训练网络瓶颈

MRC 借助多路径与 SRv6 绕开故障

多平面网络让 131000 块 GPU 两层互联

GB200 超算已部署 MRC 网络协议

推荐阅读

CodeGraph 代码图谱发布：用本地索引降低 AI Agent 检索成本

Codex 速率限制问题已修复，所有账户额度已重置

Google 宣布 Gemini CLI 关停，6 月 18 日整合至 Antigravity CLI

ChatGPT PowerPoint 集成上线，支持直接创建编辑演示文稿

评论 ···

OpenAI MRC 协议解决训练网络瓶颈

MRC 借助多路径与 SRv6 绕开故障

多平面网络让 131000 块 GPU 两层互联

GB200 超算已部署 MRC 网络协议

分享

推荐阅读

评论 ···