文心 5.1 发布预训练成本降至 6%

百度正式上线文心 5.1，并公布模型在参数效率、训练成本和多项 benchmark 上的表现。文心 5.1 将总参数压缩至文心 5.0 约 1/3，激活参数压缩至约 1/2，预训练算力成本约为业界同规模模型的 6%。5 月 9 日，文心 5.1 以 1223 分位列 Arena 搜索榜全球第 4、国内第 1。

文心 5.1 发布后的核心指标

根据百度公布的信息，文心 5.1 基于文心 5.0 训练而来，重点不是单纯扩大参数规模，而是压缩总参数、激活参数和预训练成本。模型在保持旗舰级能力的同时，将总参数量降至文心 5.0 的约 1/3，激活参数量降至约 1/2。百度称，其预训练算力成本仅为业界同规模模型的 6%。用户可通过百度文心一言官网体验文心 5.1，星河社区也同步开放 Playground 入口。文心 5.1 Benchmark 能力对比图

Agent、知识与推理 benchmark 表现

文心 5.1 的公开定位集中在 Agent、世界知识、推理和深度搜索能力。百度称，文心 5.1 在 τ³-bench 与 SpreadsheetBench-Verified Agent 任务中超越 DeepSeek-V4-Pro，Agentic 能力接近领先闭源模型。在知识类评测中，文心 5.1 在 GPQA 和 MMLU-Pro 上接近领先闭源模型。数学竞赛评测 AIME26 使用工具时，文心 5.1 得分 99.6，据百度披露仅次于 Gemini 3.1 Pro。内部评测还显示，其创意写作能力接近 Gemini 3.1 Pro，但这一结论仍属于厂商自测结果，需等待更多第三方复现。文心 5.0 弹性训练技术示意图

弹性预训练如何降低文心 5.1 成本

文心 5.1 使用 Once-for-All 弹性训练框架，从文心 5.0 的子模型矩阵中提取最优子结构。传统方案通常需要为不同规模模型分别预训练，文心 5.0 则通过单次预训练和动态采样，同时优化多个参数规模不同的子模型。百度将这一机制拆成 3 个方向：弹性深度通过随机跳过部分 Transformer 层共享权重；弹性宽度通过调控 MoE 专家池规模提升专家利用效率；弹性稀疏度通过可变 Top-k 路由，在推理成本和模型能力之间动态取舍。这一设计的重要性在于，国产旗舰模型的竞争正在从单纯比规模，转向比同等能力下的训练和推理效率。

全异步强化学习与 OPD 后训练管线

百度称，文心 5.1 在飞桨上构建了分离式强化学习基础设施，将训练、推理、奖励和 agent loop 的控制面解耦。该架构以 RL Controller 为核心，让各子系统独立部署和扩缩容，并通过流水线方式重叠推理、训练和奖励计算。针对 MoE 模型的训推路由偏差，团队优化了 Rollout Router Replay，即 R3 技术；在开启 R3 后，训推耗时几乎没有增加，同时 KL 散度下降 50%。后训练阶段采用以多教师在线策略蒸馏为核心的流程，包含统一 SFT、领域专家模型训练、在线策略蒸馏和 General-RL 4 个阶段，用于缓解多能力融合时的跷跷板效应。文心 5.1 后训练管线示意图

创作场景与 Agent 平台接入进展

百度将创作能力列为文心 5.1 的重点场景，强调模型在创意写作、长篇叙事和专业文本中的意图理解与风格适配。原文提到，文心 5.1 将陆续上线 ISEKAI ZERO、Mulan AI、谛听幻流、Storymaster 等数十个创作生产 Agent 平台。这意味着文心 5.1 的首批落地不只面向通用聊天，也会进入角色扮演、创意 Agent、AI 原生画布和短剧生成等内容生产链路。文心 5.1 的关键看点，是百度把模型发布重点放在效价比和后训练基础设施上，而不是只强调参数规模。若官方披露的 6% 预训练成本和多项 Agent 评测优势能被更多第三方验证，文心 5.1 将强化国产大模型在企业级智能体和内容生产场景中的可部署性。

文心 5.1 发布预训练成本降至 6%

文心 5.1 发布后的核心指标

Agent、知识与推理 benchmark 表现

弹性预训练如何降低文心 5.1 成本

全异步强化学习与 OPD 后训练管线

创作场景与 Agent 平台接入进展

推荐阅读

Anthropic 被曝筹备 Claude Mythos 1,将集成至 Claude Code 与 Security

GPT-5.6 泄露：六月发布在即，iris-alpha 等三款变体曝光

OpenAI Codex 流量分配转向开源终端工具访问

Claude Mythos Preview 漏洞挖掘成果:Project Glasswing 首月发现逾万高危漏洞

评论 ···

文心 5.1 发布后的核心指标

Agent、知识与推理 benchmark 表现

弹性预训练如何降低文心 5.1 成本

全异步强化学习与 OPD 后训练管线

创作场景与 Agent 平台接入进展

分享

推荐阅读

评论 ···