蚂蚁百灵发布 Ring-2.6-1T

蚂蚁百灵公布 Ring-2.6-1T 的多档能力设置与一组 benchmark 成绩。官方称 high 档面向真实任务执行、通用 agent 与 coding agent，xhigh 档面向数学、研究和多路径推理；OpenRouter 上的免费试用持续到 5 月 15 日。

Ring-2.6-1T high 档强化 agent 执行

蚂蚁百灵官方称，Ring-2.6-1T 的 high 档在真实任务执行 benchmark 中主打稳定性与 API routing 能力。官方给出的适用场景包括通用 agent、coding agent，以及需要外部工具调用的生产工作流。公布数据中，Ring-2.6-1T high 在 PinchBench 上达到 87.60，官方称这一分数高于 GPT-5.4 xHigh 与 Gemini-3.1-Pro high；在 ClawEval 上达到 63.82；在 Tau2-Bench Telecom 上达到 95.32。这些分数的共同指向不是单轮问答能力，而是模型在多步骤任务、工具选择与执行稳定性中的表现。 Ring high 档 agent benchmark 成绩图

Ring-2.6-1T xhigh 档提升推理上限

xhigh 档被官方定义为 intelligence overload-xhigh，目标是为严谨逻辑分析提供更大的 thought space。蚂蚁百灵称，这一档位面向数学、研究、规划与重推理任务，适合需要多路径探索的用例。官方公布的 benchmark 包括 AIME 26 得分 95.83、GPQA Diamond 得分 88.27、ARC-AGI-V2 得分 77.78。从任务类型看，AIME 更偏竞赛数学，GPQA Diamond 更偏研究级知识推理，ARC-AGI-V2 则强调抽象泛化能力。三组分数放在一起，显示蚂蚁百灵希望把 Ring-2.6-1T 区分为执行档与深度推理档，而不是只给出单一能力标签。 Ring xhigh 档推理 benchmark 成绩图

OpenRouter 试用窗口覆盖 1 周

蚂蚁百灵称，Ring 与 Ling 系列 instruct 模型类似，设计目标是在生产工作流中提供可靠执行能力，同时保持合理推理成本。官方同时提到，用户可在 OpenRouter 上通过 Novita Labs 免费试用该模型 1 周，试用期截至 5 月 15 日。原文未给出正式 API 价格、上下文窗口、参数精确结构或开源许可信息，因此这些关键部署参数仍需等待后续官方文档补全。

为什么 Ring-2.6-1T benchmark 值得关注

Ring-2.6-1T 的信息价值在于，蚂蚁百灵把 agent 执行与深度推理拆成两个能力档位来呈现。high 档突出 API routing 与稳定执行，xhigh 档突出数学和研究任务，这种划分更接近实际生产调度：低延迟、可控成本的任务交给执行档，复杂规划与证明类任务交给高推理档。对开发者而言，后续最需要验证的是三点：OpenRouter 免费期结束后的价格，high 与 xhigh 的延迟差异，以及这些 benchmark 分数能否在真实 agent harness 中复现。 Ring-2.6-1T 已给出一组较完整的公开分数，但当前信息仍主要来自官方社交平台披露。更稳妥的判断是：它已进入可试用阶段，并展示了面向 agent 与推理任务的双档定位；至于能否成为生产环境中的默认模型，还要看价格、延迟、上下文窗口和第三方复测结果。

蚂蚁百灵发布 Ring-2.6-1T

Ring-2.6-1T high 档强化 agent 执行

Ring-2.6-1T xhigh 档提升推理上限

OpenRouter 试用窗口覆盖 1 周

为什么 Ring-2.6-1T benchmark 值得关注

推荐阅读

Anthropic 被曝筹备 Claude Mythos 1,将集成至 Claude Code 与 Security

GPT-5.6 泄露：六月发布在即，iris-alpha 等三款变体曝光

OpenAI Codex 流量分配转向开源终端工具访问

Claude Mythos Preview 漏洞挖掘成果:Project Glasswing 首月发现逾万高危漏洞

评论 ···

Ring-2.6-1T high 档强化 agent 执行

Ring-2.6-1T xhigh 档提升推理上限

OpenRouter 试用窗口覆盖 1 周

为什么 Ring-2.6-1T benchmark 值得关注

分享

推荐阅读

评论 ···