Coding Agent Index 发布 编码智能体组合评测
Artificial Analysis 发布 Coding Agent Index,用来评测编码模型与 agent harness 的组合表现。该榜单覆盖 3 个编码 agent benchmark,同时统计得分、API token 成本、token 用量、缓存命中率与每任务耗时。首批结果显示,Opus 4.7 在 Cursor CLI 中得分 61,暂列第一。

Coding Agent Index 的评测范围
这项榜单评测组合表现。Artificial Analysis 的核心判断是,开发者使用 AI 编码时并不只选择模型,还会选择 Cursor CLI、Codex、Claude Code、Gemini CLI 等 harness。模型与 harness 的组合会改变提示结构、工具调用、缓存行为与任务执行路径,因此单看模型分数不足以解释真实编码体验。Artificial Analysis 编码 agent benchmark 页面列出首批组合结果,并称后续会加入更多 agent、harness 与模型。
3 个编码 benchmark 覆盖真实任务与问答
Coding Agent Index 使用 3 个主要测试集。SWE-Bench-Pro-Hard-AA 包含 150 个现实编码任务,样本来自 Scale AI 的 SWE-Bench Pro,并聚焦前沿模型仍会吃力的场景。Terminal-Bench v2 包含 84 个 agentic 终端任务,来源为 Laude Institute,覆盖系统管理、密码学与机器学习等方向;原始任务中有 5 个因环境不兼容被过滤。SWE-Atlas-QnA 包含 124 个由 Scale AI 开发的技术问答任务,要求 agent 探索代码库,并解释代码行为、问题根因等内容。
Opus 4.7 与 GPT-5.5 领跑组合得分
首批最高分来自闭源前沿模型。Opus 4.7 在 Cursor CLI 中得分 61,位居 Coding Agent Index 第一。GPT-5.5 在 Codex 中得分 60,Opus 4.7 在 Claude Code 中同为 60,紧随其后。GPT-5.5 在 Cursor CLI 中得分 58。开源权重模型具备竞争力,但仍落后于领先闭源模型:GLM-5.1 在 Claude Code 中得分 53,是最高的开放权重结果;Kimi K2.6 与 DeepSeek V4 Pro 在 Claude Code 中均为 50。这说明开放权重模型已能进入实用区间,但在高难编码 agent 任务上仍未追平头部闭源组合。
成本、token 与耗时差距拉开部署成本
每任务 API token 成本差异超过 30 倍。Composer 2 在 Cursor CLI 中最便宜,为 0.07 美元/任务;DeepSeek V4 Pro 在 Claude Code 中为 0.35 美元/任务;Kimi K2.6 在 Claude Code 中为 0.76 美元/任务。高成本端,GPT-5.5 在 Codex 中为 2.21 美元/任务,GLM-5.1 在 Claude Code 中为 2.26 美元/任务。token 用量差异也超过 3 倍:GLM-5.1 在 Claude Code 中达到 480 万 token/任务,Kimi K2.6 为 370 万 token/任务,DeepSeek V4 Pro 为 350 万 token/任务。GPT-5.5 在 Codex 中使用 280 万 token/任务,明显高于 Opus 4.7 在 Claude Code 中的 170 万 token/任务。耗时差距超过 7 倍:Opus 4.7 在 Claude Code 中约 6 分钟/任务,Kimi K2.6 在 Claude Code 中约 40 分钟/任务。
Gemini CLI 短板与 Cursor Composer 2 进展
Gemini 3.1 Pro 在 Gemini CLI 中表现偏弱。该组合得分 43,明显低于 Gemini 3.1 Pro 在 Artificial Analysis Intelligence Index 中的位置,说明 Google 的 Gemini CLI 仍是相对短板。Cursor 的 Composer 2 则展示出不同方向的进展:Composer 2 在 Cursor CLI 中得分 48,接近领先开放权重模型结果,同时以 0.07 美元/任务成为本次测量中最低成本组合。Cursor 曾表示 Composer 2 构建自 Kimi K2.5,这一结果反映了后训练与 harness 集成可能带来的实际收益。 Coding Agent Index 的价值不在于给单个模型排一次名,而在于把模型、harness、成本、缓存与耗时放在同一张表里比较。对工程团队而言,这一评测说明编码 agent 的选型应从“哪个模型更强”转向“哪个组合在目标任务上更稳、更便宜、更快”。后续若加入更多 IDE、CLI 与企业内部 agent harness,这类组合评测会更接近真实生产部署决策。
评论 ···