Scale Labs 发布 Refactoring Leaderboard

Scale Labs 发布 Refactoring Leaderboard，用于评测 AI coding agents 在复杂代码库中重构代码的能力。该榜单是 SWE Atlas 研究套件的最后一项支柱，重点衡量智能体是否能在不改变既有行为的前提下调整代码结构。

Refactoring Leaderboard 评测什么能力

Scale Labs 将 Refactoring Leaderboard 定位为 SWE Atlas 的第三个核心评测方向。SWE Atlas 不是只看模型能否完成孤立 coding prompt，而是覆盖软件开发周期中的代码库理解、测试编写与复杂重构。新榜单要求 AI coding agents 在生产风格代码库中工作：理解现有架构，修改多个文件，保持测试通过，并在重构后清理过期产物。根据 Scale Labs 附带研究，SWE Atlas Refactoring 任务需要的代码改动行数约为 SWE-Bench Pro 的 2 倍，文件编辑次数约为 1.7 倍。这一设计让评测更接近多文件工程任务，而不是短题式编程能力测试。

Claude Code with Opus 4.7 排名第一

Refactoring Leaderboard 当前结果显示，Claude Code with Opus 4.7 排名第一，在已测试智能体中给出最强重构结果。ChatGPT 5.5 位列第二。Scale Labs 的结果还显示，前沿闭源模型与开放权重模型之间存在明显差距；开放权重系统在广泛探索代码仓库、执行结构性修改、保持行为一致性等任务上落后。榜单覆盖 4 类重构工作：

拆分单体式实现，让代码结构更清晰。
用带类型或更干净的抽象替换薄弱接口。
把重复或放错位置的逻辑抽取到共享模块。
迁移代码位置，改善模块边界。
每个任务通过两类信号评估：一是测试是否通过，二是按 rubric 审查代码可维护性、产物清理、反模式规避与文档可维护性。

通过测试不等于工程质量合格

Scale Labs 的一个关键发现是，模型经常能让重构后的代码通过测试，但仍无法满足工程质量检查。研究指出，智能体常留下死代码、过期 import、重复实现、失效注释，或遗漏调用点。这类 cleanup 问题会区分两种能力：一种是完成表面任务，另一种是交付可进入生产环境的代码变更。这也是 Refactoring Leaderboard 相比传统代码 benchmark 更有价值的地方。真实工程重构不是只让单元测试变绿，还要维护抽象边界、删除旧路径、更新文档，并避免让后续维护者承担隐性债务。

可靠性仍是 AI coding agents 的短板

Scale Labs 表示，当模型对同一任务尝试 3 次 时，出现至少 1 次成功的概率，是连续 3 次都成功概率的 2 至 3 倍。这意味着模型可能在单次演示中显得可用，但在无人值守的生产工作流中仍不够稳定。在这一框架下，Refactoring Leaderboard 不只衡量模型峰值能力，也衡量智能体能否在相似条件下重复交付同等质量。Scale Labs CEO Jason Droege 也将可靠性视为 AI agents 的核心障碍。榜单结果支持这一判断：最强模型正在进步，但能力提升与一致性提升并不同步。 Refactoring Leaderboard 的行业意义在于，它把 AI coding agents 的评测重点从生成代码推进到维护代码。对工程团队而言，真正可落地的编码智能体必须稳定理解代码库、协调多文件修改，并清理重构后的残留产物；否则，它更像高能力助手，而不是可独立承担生产变更的软件工程师。

Scale Labs 发布 Refactoring Leaderboard

Refactoring Leaderboard 评测什么能力

Claude Code with Opus 4.7 排名第一

通过测试不等于工程质量合格

可靠性仍是 AI coding agents 的短板

推荐阅读

Anthropic Mythos 被曝发现 macOS 安全漏洞

Coding Agent Index 发布编码智能体组合评测

OpenAI o1 急诊诊断超越医生

Anthropic 用宪法文档降低 Claude 代理失准

评论 ···

Refactoring Leaderboard 评测什么能力

Claude Code with Opus 4.7 排名第一

通过测试不等于工程质量合格

可靠性仍是 AI coding agents 的短板

分享

推荐阅读

评论 ···