据 华尔街日报报道,安全研究公司 Calif 于 2026 年 4 月利用 Anthropic Mythos AI 的早期测试版本,在 macOS 中发现了一种可绕过 Apple 内存完整性保护机制的权限提升漏洞。该漏洞利用链组合了两处软件缺陷与多种技术手段,可破坏 Mac 内存并访问本应隔离的系统区域。
Artificial Analysis 发布 Coding Agent Index,用来评测编码模型与 agent harness 的组合表现。该榜单覆盖 3 个编码 agent benchmark,同时统计得分、API token 成本、token 用量、缓存命中率与每任务耗时。首批结果显示,Opus 4.7 在 Cursor CLI 中得分 61,暂列第一。
根据 Science 报道,一项新研究测试了 OpenAI o1 在临床诊断任务中的表现。OpenAI o1 急诊诊断在早期急诊病例中识别出精确或接近诊断的比例约为 67%,高于医生的约 50% 至 55%。研究同时强调,o1 只读取书面病例信息,尚未覆盖影像、长住院记录等真实医疗输入。
Anthropic 官方称,围绕 Claude 宪法编写的高质量文档与描写对齐 AI 的虚构故事,可将 Claude 代理失准降低到原来的三分之一以下。这些干预与评测场景无关,但效果在 reinforcement learning 后仍保留,并可与常规 harmlessness training 叠加。
METR 于 2026 年 5 月 8 日更新前沿 AI 模型任务完成时间跨度评测页面,新增 Claude Mythos 时间跨度数据点。Claude Mythos Preview (early) 的 50% 时间跨度测得约 17 小时。METR 同步标注,现有任务集对 16 小时以上的测量不可靠,因此这个数值更适合作为能力触及评测上限的信号,而非精确刻度。
Anthropic 宣布将开源对齐评测工具 Petri 的开发移交给 AI 评估非营利机构 Meridian Labs,并同步更新到 Petri 3.0。Petri 3.0 对齐评测面向大语言模型的欺骗、阿谀和配合有害请求等风险行为,已被用于 Claude Sonnet 4.5 以来每个 Claude 模型的对齐评估。
Scale Labs 发布 Refactoring Leaderboard,用于评测 AI coding agents 在复杂代码库中重构代码的能力。该榜单是 SWE Atlas 研究套件的最后一项支柱,重点衡量智能体是否能在不改变既有行为的前提下调整代码结构。
最新研究揭示,大语言模型在通过监督微调(SFT)注入新事实知识时,极易诱发表面合理的错误陈述。耶路撒冷希伯来大学等机构团队指出,该现象本质是持续学习中的“事实遗忘”。团队提出基于自蒸馏的 SFT 优化方法,通过正则化输出分布漂移,将 SFT 诱导幻觉率从约 15% 降至约 3%,同时保持新知识的获取效率。
阿里 Qwen 团队开源可解释性工具 Qwen-Scope,基于 Qwen3 与 Qwen3.5 系列共 7 个模型训练所得,提供 14 组稀疏自编码器(SAE)权重。该工具通过在隐藏层插入 SAE 并施加稀疏性约束,提取高度解耦的可解释性特征,覆盖稠密模型与混合专家模型两类架构。