百度正式上线文心 5.1,并公布模型在参数效率、训练成本和多项 benchmark 上的表现。文心 5.1 将总参数压缩至文心 5.0 约 1/3,激活参数压缩至约 1/2,预训练算力成本约为业界同规模模型的 6%。5 月 9 日,文心 5.1 以 1223 分位列 Arena 搜索榜全球第 4、国内第 1。

文心 5.1 Arena 搜索榜排名截图

文心 5.1 发布后的核心指标

根据百度公布的信息,文心 5.1 基于文心 5.0 训练而来,重点不是单纯扩大参数规模,而是压缩总参数、激活参数和预训练成本。模型在保持旗舰级能力的同时,将总参数量降至文心 5.0 的约 1/3,激活参数量降至约 1/2。百度称,其预训练算力成本仅为业界同规模模型的 6%。用户可通过 百度文心一言官网体验文心 5.1,星河社区也同步开放 Playground 入口。文心 5.1 Benchmark 能力对比图

Agent、知识与推理 benchmark 表现

文心 5.1 的公开定位集中在 Agent、世界知识、推理和深度搜索能力。百度称,文心 5.1 在 τ³-benchSpreadsheetBench-Verified Agent 任务中超越 DeepSeek-V4-Pro,Agentic 能力接近领先闭源模型。在知识类评测中,文心 5.1 在 GPQAMMLU-Pro 上接近领先闭源模型。数学竞赛评测 AIME26 使用工具时,文心 5.1 得分 99.6,据百度披露仅次于 Gemini 3.1 Pro。内部评测还显示,其创意写作能力接近 Gemini 3.1 Pro,但这一结论仍属于厂商自测结果,需等待更多第三方复现。文心 5.0 弹性训练技术示意图

弹性预训练如何降低文心 5.1 成本

文心 5.1 使用 Once-for-All 弹性训练框架,从文心 5.0 的子模型矩阵中提取最优子结构。传统方案通常需要为不同规模模型分别预训练,文心 5.0 则通过单次预训练和动态采样,同时优化多个参数规模不同的子模型。百度将这一机制拆成 3 个方向:弹性深度通过随机跳过部分 Transformer 层共享权重;弹性宽度通过调控 MoE 专家池规模提升专家利用效率;弹性稀疏度通过可变 Top-k 路由,在推理成本和模型能力之间动态取舍。这一设计的重要性在于,国产旗舰模型的竞争正在从单纯比规模,转向比同等能力下的训练和推理效率。

全异步强化学习与 OPD 后训练管线

百度称,文心 5.1 在飞桨上构建了分离式强化学习基础设施,将训练、推理、奖励和 agent loop 的控制面解耦。该架构以 RL Controller 为核心,让各子系统独立部署和扩缩容,并通过流水线方式重叠推理、训练和奖励计算。针对 MoE 模型的训推路由偏差,团队优化了 Rollout Router Replay,即 R3 技术;在开启 R3 后,训推耗时几乎没有增加,同时 KL 散度下降 50%。后训练阶段采用以多教师在线策略蒸馏为核心的流程,包含统一 SFT、领域专家模型训练、在线策略蒸馏和 General-RL 4 个阶段,用于缓解多能力融合时的跷跷板效应。文心 5.1 后训练管线示意图

创作场景与 Agent 平台接入进展

百度将创作能力列为文心 5.1 的重点场景,强调模型在创意写作、长篇叙事和专业文本中的意图理解与风格适配。原文提到,文心 5.1 将陆续上线 ISEKAI ZEROMulan AI谛听幻流Storymaster 等数十个创作生产 Agent 平台。这意味着文心 5.1 的首批落地不只面向通用聊天,也会进入角色扮演、创意 Agent、AI 原生画布和短剧生成等内容生产链路。 文心 5.1 的关键看点,是百度把模型发布重点放在效价比和后训练基础设施上,而不是只强调参数规模。若官方披露的 6% 预训练成本和多项 Agent 评测优势能被更多第三方验证,文心 5.1 将强化国产大模型在企业级智能体和内容生产场景中的可部署性。

评论 ···