LLM 大模型邮报
  • 首页
  • 工程实践
  • 教程指南
  • 行业观察
  • 模型动态
  • 研究前沿
  • 关于

    分类: 研究前沿


    LLMPOSTS.com 研究前沿分类追踪大模型领域的学术动态与方法论演进:覆盖 arXiv 论文解读、新算法、新架构、benchmark 设计、对齐技术、强化学习、推理能力、agent 评估等研究方向。涵盖 OpenAI、Anthropic、DeepMind、Meta AI、智源、上海 AI Lab 等机构的研究输出,以及独立研究者的实验性项目,为中文 AI 研究者与工程师提供持续更新的学术风向参考与论文中文化解读。


    全部分类

      • 模型动态 (57)‍•
      • 工程实践 (45)‍•
      • 行业观察 (30)‍•
      • 研究前沿 (9)‍•
      • 教程指南 (4)
      • Chatgpt (8)‍•
      • Openai (8)‍•
      • Gemini (1)‍•
      • GPT5.5 (1)‍•
      • Sonnet (1)
    • Anthropic Mythos 被曝发现 macOS 安全漏洞

      Anthropic Mythos 被曝发现 macOS 安全漏洞

      • 研究前沿
      • •
      • 2026年5月15日 22:31
      • •
      • ···
      Anthropic Mythos 被曝发现 macOS 安全漏洞

      据 华尔街日报报道,安全研究公司 Calif 于 2026 年 4 月利用 Anthropic Mythos AI 的早期测试版本,在 macOS 中发现了一种可绕过 Apple 内存完整性保护机制的权限提升漏洞。该漏洞利用链组合了两处软件缺陷与多种技术手段,可破坏 Mac 内存并访问本应隔离的系统区域。

      Misty
      Misty
    • Coding Agent Index 发布 编码智能体组合评测

      Coding Agent Index 发布 编码智能体组合评测

      • 研究前沿
      • •
      • 2026年5月11日 23:56
      • •
      • ···
      Coding Agent Index 发布 编码智能体组合评测

      Artificial Analysis 发布 Coding Agent Index,用来评测编码模型与 agent harness 的组合表现。该榜单覆盖 3 个编码 agent benchmark,同时统计得分、API token 成本、token 用量、缓存命中率与每任务耗时。首批结果显示,Opus 4.7 在 Cursor CLI 中得分 61,暂列第一。

      Misty
      Misty
    • OpenAI o1 急诊诊断超越医生

      OpenAI o1 急诊诊断超越医生

      • 研究前沿
      • •
      • 2026年5月11日 03:16
      • •
      • ···
      OpenAI o1 急诊诊断超越医生

      根据 Science 报道,一项新研究测试了 OpenAI o1 在临床诊断任务中的表现。OpenAI o1 急诊诊断在早期急诊病例中识别出精确或接近诊断的比例约为 67%,高于医生的约 50% 至 55%。研究同时强调,o1 只读取书面病例信息,尚未覆盖影像、长住院记录等真实医疗输入。

      Misty
      Misty
    • Anthropic 用宪法文档降低 Claude 代理失准

      Anthropic 用宪法文档降低 Claude 代理失准

      • 研究前沿
      • •
      • 2026年5月10日 19:19
      • •
      • ···
      Anthropic 用宪法文档降低 Claude 代理失准

      Anthropic 官方称,围绕 Claude 宪法编写的高质量文档与描写对齐 AI 的虚构故事,可将 Claude 代理失准降低到原来的三分之一以下。这些干预与评测场景无关,但效果在 reinforcement learning 后仍保留,并可与常规 harmlessness training 叠加。

      Misty
      Misty
    • Claude Mythos 时间跨度达 17 小时但超可靠范围

      Claude Mythos 时间跨度达 17 小时但超可靠范围

      • 研究前沿
      • •
      • 2026年5月9日 17:29
      • •
      • ···
      Claude Mythos 时间跨度达 17 小时但超可靠范围

      METR 于 2026 年 5 月 8 日更新前沿 AI 模型任务完成时间跨度评测页面,新增 Claude Mythos 时间跨度数据点。Claude Mythos Preview (early) 的 50% 时间跨度测得约 17 小时。METR 同步标注,现有任务集对 16 小时以上的测量不可靠,因此这个数值更适合作为能力触及评测上限的信号,而非精确刻度。

      Misty
      Misty
    • Anthropic 捐出 Petri 3.0 对齐评测工具

      Anthropic 捐出 Petri 3.0 对齐评测工具

      • 研究前沿
      • •
      • 2026年5月8日 10:57
      • •
      • ···
      Anthropic 捐出 Petri 3.0 对齐评测工具

      Anthropic 宣布将开源对齐评测工具 Petri 的开发移交给 AI 评估非营利机构 Meridian Labs,并同步更新到 Petri 3.0。Petri 3.0 对齐评测面向大语言模型的欺骗、阿谀和配合有害请求等风险行为,已被用于 Claude Sonnet 4.5 以来每个 Claude 模型的对齐评估。

      Misty
      Misty
    • Scale Labs 发布 Refactoring Leaderboard

      Scale Labs 发布 Refactoring Leaderboard

      • 研究前沿
      • •
      • 2026年5月8日 00:54
      • •
      • ···
      Scale Labs 发布 Refactoring Leaderboard

      Scale Labs 发布 Refactoring Leaderboard,用于评测 AI coding agents 在复杂代码库中重构代码的能力。该榜单是 SWE Atlas 研究套件的最后一项支柱,重点衡量智能体是否能在不改变既有行为的前提下调整代码结构。

      Misty
      Misty
    • 监督微调为何诱发幻觉?自蒸馏将 SFT 诱导误差降至 3%

      监督微调为何诱发幻觉?自蒸馏将 SFT 诱导误差降至 3%

      • 研究前沿
      • •
      • 2026年5月4日 23:10
      • •
      • ···
      监督微调为何诱发幻觉?自蒸馏将 SFT 诱导误差降至 3%

      最新研究揭示,大语言模型在通过监督微调(SFT)注入新事实知识时,极易诱发表面合理的错误陈述。耶路撒冷希伯来大学等机构团队指出,该现象本质是持续学习中的“事实遗忘”。团队提出基于自蒸馏的 SFT 优化方法,通过正则化输出分布漂移,将 SFT 诱导幻觉率从约 15% 降至约 3%,同时保持新知识的获取效率。

      Misty
      Misty
    • 阿里开源 Qwen-Scope 可解释性工具 覆盖 7 个 Qwen3/3.5 模型

      阿里开源 Qwen-Scope 可解释性工具 覆盖 7 个 Qwen3/3.5 模型

      • 研究前沿
      • •
      • 2026年5月2日 13:16
      • •
      • ···
      阿里开源 Qwen-Scope 可解释性工具 覆盖 7 个 Qwen3/3.5 模型

      阿里 Qwen 团队开源可解释性工具 Qwen-Scope,基于 Qwen3 与 Qwen3.5 系列共 7 个模型训练所得,提供 14 组稀疏自编码器(SAE)权重。该工具通过在隐藏层插入 SAE 并施加稀疏性约束,提取高度解耦的可解释性特征,覆盖稠密模型与混合专家模型两类架构。

      Misty
      Misty

    网站

    • Hugo
    • Cloudflare
    • Artalk
    • 关于 LLM 大模型邮报

    关注我们

    • XX(Twitter)
    • Sina Weibo微博
    • TelegramTelegram
    • RSSRSS

    友情链接

    • WinDiscover

    © 2026 LLM大模型邮报 · 保留所有权利