Scale Labs 发布 Refactoring Leaderboard
Scale Labs 发布 Refactoring Leaderboard,用于评测 AI coding agents 在复杂代码库中重构代码的能力。该榜单是 SWE Atlas 研究套件的最后一项支柱,重点衡量智能体是否能在不改变既有行为的前提下调整代码结构。

Refactoring Leaderboard 评测什么能力
Scale Labs 将 Refactoring Leaderboard 定位为 SWE Atlas 的第三个核心评测方向。SWE Atlas 不是只看模型能否完成孤立 coding prompt,而是覆盖软件开发周期中的代码库理解、测试编写与复杂重构。新榜单要求 AI coding agents 在生产风格代码库中工作:理解现有架构,修改多个文件,保持测试通过,并在重构后清理过期产物。 根据 Scale Labs 附带研究,SWE Atlas Refactoring 任务需要的代码改动行数约为 SWE-Bench Pro 的 2 倍,文件编辑次数约为 1.7 倍。这一设计让评测更接近多文件工程任务,而不是短题式编程能力测试。
Claude Code with Opus 4.7 排名第一
Refactoring Leaderboard 当前结果显示,Claude Code with Opus 4.7 排名第一,在已测试智能体中给出最强重构结果。ChatGPT 5.5 位列第二。Scale Labs 的结果还显示,前沿闭源模型与开放权重模型之间存在明显差距;开放权重系统在广泛探索代码仓库、执行结构性修改、保持行为一致性等任务上落后。 榜单覆盖 4 类重构工作:
- 拆分单体式实现,让代码结构更清晰。
- 用带类型或更干净的抽象替换薄弱接口。
- 把重复或放错位置的逻辑抽取到共享模块。
- 迁移代码位置,改善模块边界。
每个任务通过两类信号评估:一是测试是否通过,二是按 rubric 审查代码可维护性、产物清理、反模式规避与文档可维护性。
通过测试不等于工程质量合格
Scale Labs 的一个关键发现是,模型经常能让重构后的代码通过测试,但仍无法满足工程质量检查。研究指出,智能体常留下死代码、过期 import、重复实现、失效注释,或遗漏调用点。这类 cleanup 问题会区分两种能力:一种是完成表面任务,另一种是交付可进入生产环境的代码变更。 这也是 Refactoring Leaderboard 相比传统代码 benchmark 更有价值的地方。真实工程重构不是只让单元测试变绿,还要维护抽象边界、删除旧路径、更新文档,并避免让后续维护者承担隐性债务。
可靠性仍是 AI coding agents 的短板
Scale Labs 表示,当模型对同一任务尝试 3 次 时,出现至少 1 次成功的概率,是连续 3 次都成功概率的 2 至 3 倍。这意味着模型可能在单次演示中显得可用,但在无人值守的生产工作流中仍不够稳定。 在这一框架下,Refactoring Leaderboard 不只衡量模型峰值能力,也衡量智能体能否在相似条件下重复交付同等质量。Scale Labs CEO Jason Droege 也将可靠性视为 AI agents 的核心障碍。榜单结果支持这一判断:最强模型正在进步,但能力提升与一致性提升并不同步。 Refactoring Leaderboard 的行业意义在于,它把 AI coding agents 的评测重点从生成代码推进到维护代码。对工程团队而言,真正可落地的编码智能体必须稳定理解代码库、协调多文件修改,并清理重构后的残留产物;否则,它更像高能力助手,而不是可独立承担生产变更的软件工程师。
评论 ···