METR 于 2026 年 5 月 8 日更新前沿 AI 模型任务完成时间跨度评测页面,新增 Claude Mythos 时间跨度数据点。Claude Mythos Preview (early) 的 50% 时间跨度测得约 17 小时。METR 同步标注,现有任务集对 16 小时以上的测量不可靠,因此这个数值更适合作为能力触及评测上限的信号,而非精确刻度。

Claude Mythos 时间跨度评测曲线截图

Claude Mythos 时间跨度结果与 16 小时边界

Claude Mythos Preview (early) 位于曲线最右端。根据 METR 时间跨度评测页面,该模型在 Time Horizon 1.1 任务集上的预测 50% 时间跨度为 17 小时。这意味着在由人类专家约需 17 小时完成的任务难度上,评测曲线预测 AI agent 有一半概率完成任务。METR 同页提示,超过 16 小时的测量结果在当前任务集下不可靠。这个限定很关键:17 小时不是可以直接横向精确排序的稳定分数,而是说明前沿模型已经撞到现有题库的有效测量边界。METR 任务成功率曲线与数据点截图

Time Horizon 1.1 如何测量任务难度

时间跨度衡量任务难度。METR 先估计人类专家完成每个任务所需时间,再把 AI agent 的成功率与人类任务时长做 logistic 曲线拟合。50% 时间跨度是曲线与 50% 成功率相交的位置,80% 时间跨度同理。Time Horizon 1.1 的任务主要来自 RE-BenchHCAST 和一组较短的软件任务,覆盖软件工程、机器学习与网络安全。任务被设计为自包含、目标明确,并带有可自动评估的成功标准。

17 小时不等于 AI 自主运行 17 小时

时间跨度不是运行时长。METR 在 FAQ 中明确说明,50% 时间跨度表示 AI agent 可用 50% 可靠性完成某一难度档位的任务,而这个难度用人类专家完成时间来表达。AI 实际完成任务通常比人类快数倍,因为它们可能一次性写出代码,查资料次数也更少。50% 时间跨度也可以理解为:在同一难度范围内,AI 多次尝试时大约一半能交付可用结果,另一半可能失败、卡住或给出错误产出。这个指标因此更接近任务复杂度刻度,而不是自动化工作时长表。

评测流程为何至少需要 1-2 周

METR 的评测流程成本较高。团队会把模型接入带工具的 scaffold,并在小规模 dev set 上诱发能力,选择或调整 ReActTriframeClaude CodeCodex 等交互框架。随后,评测会扩展到更大的 test set。METR 表示每个任务会启动 6 次独立运行,整体约 1000 次运行。理论上这些运行约 1 天可完成,但基础设施中断、任务修复、reward hack 检查与人工复核会拉长周期。完整流程通常至少需要 1-2 周日历时间。

时间跨度无法直接换算为岗位自动化

METR 明确反对岗位替代式误读。8 小时时间跨度不代表 AI 可以自动化所有 8 小时工作,也不代表能完成高上下文专业人士的日常工作。评测中的人类基线更接近低上下文执行者,例如新员工或远程承包者,而不是熟悉项目历史的资深成员。任务分布也主要集中在软件工程、机器学习与网络安全。多数真实岗位还包含沟通、判断、协作和难以算法评分的目标。METR 在后续研究中观察到,当评分从算法化成功标准转向整体性评估时,AI agent 表现会明显下降。 Claude Mythos 时间跨度的 17 小时数据点与 16 小时可靠性警告同时出现,构成了这次更新的核心信息。它反映了前沿模型在软件类任务上的能力继续向更长任务推进,也说明现有 benchmark 的题库长度和样本密度正在成为测量瓶颈。后续更重要的问题不是单一数值是否为 17 小时,而是 METR 能否扩展任务集,让下一批模型之间的差异继续被可靠地区分。

评论 ···