Coding Agent Index 发布编码智能体组合评测

Artificial Analysis 发布 Coding Agent Index，用来评测编码模型与 agent harness 的组合表现。该榜单覆盖 3 个编码 agent benchmark，同时统计得分、API token 成本、token 用量、缓存命中率与每任务耗时。首批结果显示，Opus 4.7 在 Cursor CLI 中得分 61，暂列第一。

Coding Agent Index 的评测范围

这项榜单评测组合表现。Artificial Analysis 的核心判断是，开发者使用 AI 编码时并不只选择模型，还会选择 Cursor CLI、Codex、Claude Code、Gemini CLI 等 harness。模型与 harness 的组合会改变提示结构、工具调用、缓存行为与任务执行路径，因此单看模型分数不足以解释真实编码体验。Artificial Analysis 编码 agent benchmark 页面列出首批组合结果，并称后续会加入更多 agent、harness 与模型。编码 agent 成本与 token 用量图表

3 个编码 benchmark 覆盖真实任务与问答

Coding Agent Index 使用 3 个主要测试集。SWE-Bench-Pro-Hard-AA 包含 150 个现实编码任务，样本来自 Scale AI 的 SWE-Bench Pro，并聚焦前沿模型仍会吃力的场景。Terminal-Bench v2 包含 84 个 agentic 终端任务，来源为 Laude Institute，覆盖系统管理、密码学与机器学习等方向；原始任务中有 5 个因环境不兼容被过滤。SWE-Atlas-QnA 包含 124 个由 Scale AI 开发的技术问答任务，要求 agent 探索代码库，并解释代码行为、问题根因等内容。

Opus 4.7 与 GPT-5.5 领跑组合得分

首批最高分来自闭源前沿模型。Opus 4.7 在 Cursor CLI 中得分 61，位居 Coding Agent Index 第一。GPT-5.5 在 Codex 中得分 60，Opus 4.7 在 Claude Code 中同为 60，紧随其后。GPT-5.5 在 Cursor CLI 中得分 58。开源权重模型具备竞争力，但仍落后于领先闭源模型：GLM-5.1 在 Claude Code 中得分 53，是最高的开放权重结果；Kimi K2.6 与 DeepSeek V4 Pro 在 Claude Code 中均为 50。这说明开放权重模型已能进入实用区间，但在高难编码 agent 任务上仍未追平头部闭源组合。

成本、token 与耗时差距拉开部署成本

每任务 API token 成本差异超过 30 倍。Composer 2 在 Cursor CLI 中最便宜，为 0.07 美元/任务；DeepSeek V4 Pro 在 Claude Code 中为 0.35 美元/任务；Kimi K2.6 在 Claude Code 中为 0.76 美元/任务。高成本端，GPT-5.5 在 Codex 中为 2.21 美元/任务，GLM-5.1 在 Claude Code 中为 2.26 美元/任务。token 用量差异也超过 3 倍：GLM-5.1 在 Claude Code 中达到 480 万 token/任务，Kimi K2.6 为 370 万 token/任务，DeepSeek V4 Pro 为 350 万 token/任务。GPT-5.5 在 Codex 中使用 280 万 token/任务，明显高于 Opus 4.7 在 Claude Code 中的 170 万 token/任务。耗时差距超过 7 倍：Opus 4.7 在 Claude Code 中约 6 分钟/任务，Kimi K2.6 在 Claude Code 中约 40 分钟/任务。

Gemini CLI 短板与 Cursor Composer 2 进展

Gemini 3.1 Pro 在 Gemini CLI 中表现偏弱。该组合得分 43，明显低于 Gemini 3.1 Pro 在 Artificial Analysis Intelligence Index 中的位置，说明 Google 的 Gemini CLI 仍是相对短板。Cursor 的 Composer 2 则展示出不同方向的进展：Composer 2 在 Cursor CLI 中得分 48，接近领先开放权重模型结果，同时以 0.07 美元/任务成为本次测量中最低成本组合。Cursor 曾表示 Composer 2 构建自 Kimi K2.5，这一结果反映了后训练与 harness 集成可能带来的实际收益。 Coding Agent Index 的价值不在于给单个模型排一次名，而在于把模型、harness、成本、缓存与耗时放在同一张表里比较。对工程团队而言，这一评测说明编码 agent 的选型应从“哪个模型更强”转向“哪个组合在目标任务上更稳、更便宜、更快”。后续若加入更多 IDE、CLI 与企业内部 agent harness，这类组合评测会更接近真实生产部署决策。

Coding Agent Index 发布编码智能体组合评测

Coding Agent Index 的评测范围

3 个编码 benchmark 覆盖真实任务与问答

Opus 4.7 与 GPT-5.5 领跑组合得分

成本、token 与耗时差距拉开部署成本

Gemini CLI 短板与 Cursor Composer 2 进展

推荐阅读

Anthropic Mythos 被曝发现 macOS 安全漏洞

OpenAI o1 急诊诊断超越医生

Anthropic 用宪法文档降低 Claude 代理失准

Claude Mythos 时间跨度达 17 小时但超可靠范围

评论 ···

Coding Agent Index 的评测范围

3 个编码 benchmark 覆盖真实任务与问答

Opus 4.7 与 GPT-5.5 领跑组合得分

成本、token 与耗时差距拉开部署成本

Gemini CLI 短板与 Cursor Composer 2 进展

分享

推荐阅读

评论 ···