研究前沿 | LLM 大模型邮报

Anthropic Mythos 被曝发现 macOS 安全漏洞
研究前沿
•
2026年5月15日 22:31
•
···
据华尔街日报报道，安全研究公司 Calif 于 2026 年 4 月利用 Anthropic Mythos AI 的早期测试版本，在 macOS 中发现了一种可绕过 Apple 内存完整性保护机制的权限提升漏洞。该漏洞利用链组合了两处软件缺陷与多种技术手段，可破坏 Mac 内存并访问本应隔离的系统区域。
Misty
Coding Agent Index 发布编码智能体组合评测
研究前沿
•
2026年5月11日 23:56
•
···
Artificial Analysis 发布 Coding Agent Index，用来评测编码模型与 agent harness 的组合表现。该榜单覆盖 3 个编码 agent benchmark，同时统计得分、API token 成本、token 用量、缓存命中率与每任务耗时。首批结果显示，Opus 4.7 在 Cursor CLI 中得分 61，暂列第一。
Misty
OpenAI o1 急诊诊断超越医生
研究前沿
•
2026年5月11日 03:16
•
···
根据 Science 报道，一项新研究测试了 OpenAI o1 在临床诊断任务中的表现。OpenAI o1 急诊诊断在早期急诊病例中识别出精确或接近诊断的比例约为 67%，高于医生的约 50% 至 55%。研究同时强调，o1 只读取书面病例信息，尚未覆盖影像、长住院记录等真实医疗输入。
Misty
Anthropic 用宪法文档降低 Claude 代理失准
研究前沿
•
2026年5月10日 19:19
•
···
Anthropic 官方称，围绕 Claude 宪法编写的高质量文档与描写对齐 AI 的虚构故事，可将 Claude 代理失准降低到原来的三分之一以下。这些干预与评测场景无关，但效果在 reinforcement learning 后仍保留，并可与常规 harmlessness training 叠加。
Misty
Claude Mythos 时间跨度达 17 小时但超可靠范围
研究前沿
•
2026年5月9日 17:29
•
···
METR 于 2026 年 5 月 8 日更新前沿 AI 模型任务完成时间跨度评测页面，新增 Claude Mythos 时间跨度数据点。Claude Mythos Preview (early) 的 50% 时间跨度测得约 17 小时。METR 同步标注，现有任务集对 16 小时以上的测量不可靠，因此这个数值更适合作为能力触及评测上限的信号，而非精确刻度。
Misty
Anthropic 捐出 Petri 3.0 对齐评测工具
研究前沿
•
2026年5月8日 10:57
•
···
Anthropic 宣布将开源对齐评测工具 Petri 的开发移交给 AI 评估非营利机构 Meridian Labs，并同步更新到 Petri 3.0。Petri 3.0 对齐评测面向大语言模型的欺骗、阿谀和配合有害请求等风险行为，已被用于 Claude Sonnet 4.5 以来每个 Claude 模型的对齐评估。
Misty
Scale Labs 发布 Refactoring Leaderboard
研究前沿
•
2026年5月8日 00:54
•
···
Scale Labs 发布 Refactoring Leaderboard，用于评测 AI coding agents 在复杂代码库中重构代码的能力。该榜单是 SWE Atlas 研究套件的最后一项支柱，重点衡量智能体是否能在不改变既有行为的前提下调整代码结构。
Misty
监督微调为何诱发幻觉？自蒸馏将 SFT 诱导误差降至 3%
研究前沿
•
2026年5月4日 23:10
•
···
最新研究揭示，大语言模型在通过监督微调（SFT）注入新事实知识时，极易诱发表面合理的错误陈述。耶路撒冷希伯来大学等机构团队指出，该现象本质是持续学习中的“事实遗忘”。团队提出基于自蒸馏的 SFT 优化方法，通过正则化输出分布漂移，将 SFT 诱导幻觉率从约 15% 降至约 3%，同时保持新知识的获取效率。
Misty
阿里开源 Qwen-Scope 可解释性工具覆盖 7 个 Qwen3/3.5 模型
研究前沿
•
2026年5月2日 13:16
•
···
阿里 Qwen 团队开源可解释性工具 Qwen-Scope，基于 Qwen3 与 Qwen3.5 系列共 7 个模型训练所得，提供 14 组稀疏自编码器（SAE）权重。该工具通过在隐藏层插入 SAE 并施加稀疏性约束，提取高度解耦的可解释性特征，覆盖稠密模型与混合专家模型两类架构。
Misty