蚂蚁百灵发布 Ring-2.6-1T
蚂蚁百灵公布 Ring-2.6-1T 的多档能力设置与一组 benchmark 成绩。官方称 high 档面向真实任务执行、通用 agent 与 coding agent,xhigh 档面向数学、研究和多路径推理;OpenRouter 上的免费试用持续到 5 月 15 日。

Ring-2.6-1T high 档强化 agent 执行
蚂蚁百灵官方称,Ring-2.6-1T 的 high 档在真实任务执行 benchmark 中主打稳定性与 API routing 能力。官方给出的适用场景包括通用 agent、coding agent,以及需要外部工具调用的生产工作流。公布数据中,Ring-2.6-1T high 在 PinchBench 上达到 87.60,官方称这一分数高于 GPT-5.4 xHigh 与 Gemini-3.1-Pro high;在 ClawEval 上达到 63.82;在 Tau2-Bench Telecom 上达到 95.32。这些分数的共同指向不是单轮问答能力,而是模型在多步骤任务、工具选择与执行稳定性中的表现。
Ring-2.6-1T xhigh 档提升推理上限
xhigh 档被官方定义为 intelligence overload-xhigh,目标是为严谨逻辑分析提供更大的 thought space。蚂蚁百灵称,这一档位面向数学、研究、规划与重推理任务,适合需要多路径探索的用例。官方公布的 benchmark 包括 AIME 26 得分 95.83、GPQA Diamond 得分 88.27、ARC-AGI-V2 得分 77.78。从任务类型看,AIME 更偏竞赛数学,GPQA Diamond 更偏研究级知识推理,ARC-AGI-V2 则强调抽象泛化能力。三组分数放在一起,显示蚂蚁百灵希望把 Ring-2.6-1T 区分为执行档与深度推理档,而不是只给出单一能力标签。
OpenRouter 试用窗口覆盖 1 周
蚂蚁百灵称,Ring 与 Ling 系列 instruct 模型类似,设计目标是在生产工作流中提供可靠执行能力,同时保持合理推理成本。官方同时提到,用户可在 OpenRouter 上通过 Novita Labs 免费试用该模型 1 周,试用期截至 5 月 15 日。原文未给出正式 API 价格、上下文窗口、参数精确结构或开源许可信息,因此这些关键部署参数仍需等待后续官方文档补全。
为什么 Ring-2.6-1T benchmark 值得关注
Ring-2.6-1T 的信息价值在于,蚂蚁百灵把 agent 执行与深度推理拆成两个能力档位来呈现。high 档突出 API routing 与稳定执行,xhigh 档突出数学和研究任务,这种划分更接近实际生产调度:低延迟、可控成本的任务交给执行档,复杂规划与证明类任务交给高推理档。对开发者而言,后续最需要验证的是三点:OpenRouter 免费期结束后的价格,high 与 xhigh 的延迟差异,以及这些 benchmark 分数能否在真实 agent harness 中复现。 Ring-2.6-1T 已给出一组较完整的公开分数,但当前信息仍主要来自官方社交平台披露。更稳妥的判断是:它已进入可试用阶段,并展示了面向 agent 与推理任务的双档定位;至于能否成为生产环境中的默认模型,还要看价格、延迟、上下文窗口和第三方复测结果。
评论 ···