Artificial Analysis 评测,Cursor 发布的 Composer 2.5 在 Coding Agent Index 中获得 62 分,位列测试的编码智能体第三。该模型在 SWE-Bench 等核心基准上表现大幅提升,同时单任务成本仅为 0.07 美元,远低于 Opus 4.7 与 GPT-5.5 等高价变体,成功跻身领先梯队。

Cursor Composer 2.5 评测的 Coding Agent Index 跑分对比图

Composer 2.5 评测: 性能跃升与基准测试突破

Composer 2.5 评分 62 分,较 Composer 2 的 48 分大幅跃升 14 分。在各项基准测试中,该模型均取得明显进步: SWE-Bench-Pro-Hard-AA 得分从 12% 飙升至 47%,提升 35 个百分点;Terminal-Bench v2 从 64% 增至 66%;SWE-Atlas-QnA 从 69% 提升至 72%。

在 SWE-Bench-Pro-Hard-AA 达到 47% 的成绩,已能与 Claude Opus 4.7 在 Claude Code 中的表现相媲美,彻底改变了此前版本在评测中表现不明的局面。

成本优势显著

Composer 2.5 在性价比方面表现突出。标准版单任务成本仅 0.07 美元,Fast 版为 0.44 美元。相比之下,Coding Agent Index 排名前两位的 Claude Opus 4.7 与 GPT-5.5 变体单任务成本分别高达 4.10 美元和 4.82 美元。

这意味着 Composer 2.5 的标准版价格约为前两名的 60 倍低价,Fast 版价格约为其 10 倍低价。在 Index 评分超过 60 分的智能体中,Composer 2.5 是绝对的成本最低选项。

Composer 2.5 与竞品成本质量帕累托前沿对比图

速度与基座模型细节

Composer 2.5 提供标准版与 Fast 版两种模式。Fast 版平均任务耗时 6.7 分钟,位列测试智能体第三快,仅慢于 Claude Code 的 Opus 4.7 中配版 (5.8 分钟) 和 Codex 的 GPT-5.5 标准版 (6.2 分钟)。

Fast 版相比标准版任务执行速度提升约 30%,但单任务成本上涨至 0.44 美元,约为标准版的 6 倍。Token 定价方面,标准版为 0.50 美元/2.50 美元 (输入/输出每百万 token),Fast 版则同步提高至 3.00 美元/15.00 美元。当前 Fast 模式作为 Cursor 的默认配置,旨在以更高的定价换取响应速度的明显改善。

该模型基于月之暗面 Kimi K2.5 的开源权重继续训练。据 Cursor 透露,约 85% 的总计算资源用于其自身额外的训练与强化学习过程。目前 Composer 2.5 仅在 Cursor IDE 与 CLI 中开放使用,暂无外部 API 接口。

Composer 2.5 Token 定价与执行速度对比详情

Composer 2.5 通过基座模型优化与强化训练,成功在性能与成本之间找到新平衡点。后续若能开放外部 API,有望在更多智能体编排框架中引发广泛采用。

评论 ···