Claude Mythos 时间跨度达 17 小时但超可靠范围

METR 于 2026 年 5 月 8 日更新前沿 AI 模型任务完成时间跨度评测页面，新增 Claude Mythos 时间跨度数据点。Claude Mythos Preview (early) 的 50% 时间跨度测得约 17 小时。METR 同步标注，现有任务集对 16 小时以上的测量不可靠，因此这个数值更适合作为能力触及评测上限的信号，而非精确刻度。

Claude Mythos 时间跨度结果与 16 小时边界

Claude Mythos Preview (early) 位于曲线最右端。根据 METR 时间跨度评测页面，该模型在 Time Horizon 1.1 任务集上的预测 50% 时间跨度为 17 小时。这意味着在由人类专家约需 17 小时完成的任务难度上，评测曲线预测 AI agent 有一半概率完成任务。METR 同页提示，超过 16 小时的测量结果在当前任务集下不可靠。这个限定很关键：17 小时不是可以直接横向精确排序的稳定分数，而是说明前沿模型已经撞到现有题库的有效测量边界。 METR 任务成功率曲线与数据点截图

Time Horizon 1.1 如何测量任务难度

时间跨度衡量任务难度。METR 先估计人类专家完成每个任务所需时间，再把 AI agent 的成功率与人类任务时长做 logistic 曲线拟合。50% 时间跨度是曲线与 50% 成功率相交的位置，80% 时间跨度同理。Time Horizon 1.1 的任务主要来自 RE-Bench、HCAST 和一组较短的软件任务，覆盖软件工程、机器学习与网络安全。任务被设计为自包含、目标明确，并带有可自动评估的成功标准。

17 小时不等于 AI 自主运行 17 小时

时间跨度不是运行时长。METR 在 FAQ 中明确说明，50% 时间跨度表示 AI agent 可用 50% 可靠性完成某一难度档位的任务，而这个难度用人类专家完成时间来表达。AI 实际完成任务通常比人类快数倍，因为它们可能一次性写出代码，查资料次数也更少。50% 时间跨度也可以理解为：在同一难度范围内，AI 多次尝试时大约一半能交付可用结果，另一半可能失败、卡住或给出错误产出。这个指标因此更接近任务复杂度刻度，而不是自动化工作时长表。

评测流程为何至少需要 1-2 周

METR 的评测流程成本较高。团队会把模型接入带工具的 scaffold，并在小规模 dev set 上诱发能力，选择或调整 ReAct、Triframe、Claude Code、Codex 等交互框架。随后，评测会扩展到更大的 test set。METR 表示每个任务会启动 6 次独立运行，整体约 1000 次运行。理论上这些运行约 1 天可完成，但基础设施中断、任务修复、reward hack 检查与人工复核会拉长周期。完整流程通常至少需要 1-2 周日历时间。

时间跨度无法直接换算为岗位自动化

METR 明确反对岗位替代式误读。8 小时时间跨度不代表 AI 可以自动化所有 8 小时工作，也不代表能完成高上下文专业人士的日常工作。评测中的人类基线更接近低上下文执行者，例如新员工或远程承包者，而不是熟悉项目历史的资深成员。任务分布也主要集中在软件工程、机器学习与网络安全。多数真实岗位还包含沟通、判断、协作和难以算法评分的目标。METR 在后续研究中观察到，当评分从算法化成功标准转向整体性评估时，AI agent 表现会明显下降。 Claude Mythos 时间跨度的 17 小时数据点与 16 小时可靠性警告同时出现，构成了这次更新的核心信息。它反映了前沿模型在软件类任务上的能力继续向更长任务推进，也说明现有 benchmark 的题库长度和样本密度正在成为测量瓶颈。后续更重要的问题不是单一数值是否为 17 小时，而是 METR 能否扩展任务集，让下一批模型之间的差异继续被可靠地区分。

Claude Mythos 时间跨度达 17 小时但超可靠范围

Claude Mythos 时间跨度结果与 16 小时边界

Time Horizon 1.1 如何测量任务难度

17 小时不等于 AI 自主运行 17 小时

评测流程为何至少需要 1-2 周

时间跨度无法直接换算为岗位自动化

推荐阅读

Anthropic Mythos 被曝发现 macOS 安全漏洞

Coding Agent Index 发布编码智能体组合评测

OpenAI o1 急诊诊断超越医生

Anthropic 用宪法文档降低 Claude 代理失准

评论 ···

Claude Mythos 时间跨度结果与 16 小时边界

Time Horizon 1.1 如何测量任务难度

17 小时不等于 AI 自主运行 17 小时

评测流程为何至少需要 1-2 周

时间跨度无法直接换算为岗位自动化

分享

推荐阅读

评论 ···