蚂蚁百灵开源 Ring-2.6-1T 万亿参数模型,主打 Agent 执行与深度推理
蚂蚁百灵团队开源 Ring-2.6-1T 万亿参数大模型,定位面向真实世界复杂任务的执行型思考模型。该模型结合 IcePop 异步强化学习算法,提供 high 与 xhigh 两种推理力度选项,在 PinchBench、AIME 26 等 benchmark 中跑出 87.60 与 95.83 的领先成绩。据 Hugging Face 官方模型库披露,Ring-2.6-1T 模型的设计重心已从传统问答转向多步骤任务规划、工具调用与长程稳定性保障。

架构定位:从问答转向长程任务执行
Ring-2.6-1T 的底层设计并非通用对话助手,而是为 Agent 工作流、代码与工程任务、长周期规划、复杂推理及企业自动化流水线专门打造。官方强调其核心逻辑是跳出被动回答范式,在深度理解上下文后自主规划执行步骤、动态调用外部工具,并在漫长的任务链条中保持状态稳定。这种架构转换直接针对了当前大模型在自动化场景中容易出现的指令断裂与上下文遗忘痛点。
该模型针对企业级自动化场景进行了专项优化,支持在高负载下维持逻辑一致性。通过引入专用推理力度控制,系统可在效率与深度之间进行动态切换。high 力度专为生产环境中的 Agent 工作流配置,追求高效吞吐与低延迟;xhigh 力度则预留更深的思考路径,专门用于需要复杂逻辑推演的科研分析与长链任务。
训练突破与 Ring-2.6-1T 模型 benchmark 跑分
在训练架构方面,团队公开了名为 IcePop 的可扩展异步强化学习算法。该算法专门针对超长轨迹的 Agent 强化学习场景设计,通过异步更新机制显著缓解了万亿参数规模下的训练不稳定性。官方指出,IcePop 使模型能够在保持高并发训练的同时稳定收敛长程任务策略,为后续更大规模的端到端智能体训练提供了工程路径。
在 Agent 与工作流场景测试中,Ring-2.6-1T 模型采用 high 推理力度,跑分表现如下:
- PinchBench:87.60
- ClawEval:63.82
- Tau2-Bench Telecom:95.32
- Gaia2-search:75.40
- SWE-Bench Verified:74.00
而在高难度推理科目中,模型切换至 xhigh 推理力度后录得以下成绩:
- AIME 26:95.83
- GPQA Diamond:88.27
- ARC-AGI-V2 Pass@2:66.18
综合来看,该模型在代码工程与电信网络基准上展现出较强的工具调用能力。推理科目中 AIME 与 GPQA 的分数也印证了 xhigh 模式在复杂逻辑推演上的设计价值。需注意的是,上述测试均由厂商自行提供,实际生产环境的延迟与成本控制仍需结合第三方评测验证。
开源部署路线与开发者接入资源
Ring-2.6-1T 模型已同步发布至 Hugging Face 平台 与 ModelScope 平台,面向全球开发者开放权重与推理代码。团队表示,后续将提供针对 Agent 编排框架的适配指南,并开放 IcePop 算法的训练配置参考,降低企业接入门槛。
对于需要集成复杂自动化流程的研发团队而言,该架构的开源意味着可以直接在本地部署或私有云环境中验证长程 Agent 工作流的可行性。结合现有的多工具调用范式,开发者能够基于 high 与 xhigh 梯度快速搭建生产级智能体系统,并在真实业务数据上持续迭代策略。
考虑到 benchmark 数据均为厂商自评、对比基准由官方选定,实际落地表现仍需观察开源社区后续的工程适配进展与第三方独立评测。企业团队建议先通过官方提供的部署指南在测试集上完成 baseline 对齐,再逐步评估推理延迟与资源消耗。
评论 ···