全部文章 | LLM 大模型邮报

Anthropic 捐出 Petri 3.0 对齐评测工具
研究前沿
•
2026年5月8日 10:57
•
···
Anthropic 宣布将开源对齐评测工具 Petri 的开发移交给 AI 评估非营利机构 Meridian Labs，并同步更新到 Petri 3.0。Petri 3.0 对齐评测面向大语言模型的欺骗、阿谀和配合有害请求等风险行为，已被用于 Claude Sonnet 4.5 以来每个 Claude 模型的对齐评估。
Misty
OpenAI 发布 GPT-Realtime-2 语音模型
模型动态
•
2026年5月8日 10:24
•
···
OpenAI 在 Realtime API 发布 GPT-Realtime-2 语音模型、GPT-Realtime-Translate 与 GPT-Realtime-Whisper。3 款模型分别覆盖实时语音推理、实时语音翻译与流式语音转写，面向可对话、可调用工具、可跨语言工作的语音应用。GPT-Realtime-2 的上下文窗口从 32K 扩展到 128K，并提供从 minimal 到 xhigh 的可调推理强度。
Misty
OpenAI 推出 Codex Chrome 扩展
工程实践
•
2026年5月8日 09:56
•
···
OpenAI 推出 Codex Chrome 扩展，让 Codex 可直接在 macOS 与 Windows 的 Chrome 中执行浏览器任务。根据 OpenAI 公布的信息，新扩展支持后台跨标签页并行工作，覆盖结构化页面导航、复杂表单录入、调试浏览器流程、检查仪表盘、研究与更新 CRM 等场景。该功能已在 Codex 应用中面向除欧盟与英国以外的所有地区开放。
Misty
Scale Labs 发布 Refactoring Leaderboard
研究前沿
•
2026年5月8日 00:54
•
···
Scale Labs 发布 Refactoring Leaderboard，用于评测 AI coding agents 在复杂代码库中重构代码的能力。该榜单是 SWE Atlas 研究套件的最后一项支柱，重点衡量智能体是否能在不改变既有行为的前提下调整代码结构。
Misty
OpenAI 董事会风波曝微软收购提议
行业观察
•
2026年5月7日 22:21
•
···
据 Aakash Gupta 披露，OpenAI 董事会风波期间，Sam Altman 曾提出让 Microsoft 收购 OpenAI。相关对话发生在 2023 年 11 月被解雇当晚，原帖称 Altman 同时给出离开公司、让 Emmett Shear 出任 CEO、交由 Microsoft 收购等选项。OpenAI 董事会风波的这组细节，重新暴露了当时治理目标、创始人控制权与 Microsoft 关系之间的张力。
Misty
Qwen 3.6 MTP 推理加速 2.5 倍
工程实践
•
2026年5月7日 20:22
•
···
llama.cpp 的 PR 22673 为 Qwen 3.6 加入 MTP speculative decoding 支持，让 Qwen 3.6 MTP 推理加速成为本地编码 agent 场景的新选项。作者在 M2 Max 96 GB 上报告约 2.5 倍生成提速，速度达到 28 tok/s，并称 48 GB 级 Mac 或显存系统可承载最高 262144 tokens 上下文。
Misty
Anthropic 发布 Claude Managed Agents 新功能支持自校正与多智能体编排
工程实践
•
2026年5月7日 14:46
•
···
Anthropic 正式发布 Claude Managed Agents 平台新功能。本次 Claude Managed Agents 新功能覆盖梦境机制（Dreaming）自动提炼记忆、Outcomes 独立评分器引导自校正，以及多智能体并行编排。 Dreaming 功能目前处于研究预览阶段，其余功能已开放公共测试版。
Misty
Anthropic 提高 Claude 用量上限并签 SpaceX 算力协议
行业观察
•
2026年5月7日 00:39
•
···
Anthropic 官方宣布提高 Claude 用量上限，并披露与 SpaceX 达成新的算力合作。调整已于 2026 年 5 月 6 日生效，覆盖 Claude Code、Claude API、Claude Pro 与 Claude Max 等用户群。SpaceX 的 Colossus 1 数据中心将在 1 个月内为 Anthropic 提供超过 300 MW 的新增容量，规模对应超过 220000 块 NVIDIA GPU。
Misty
Manus Projects 学习功能上线
工程实践
•
2026年5月6日 23:40
•
···
Manus Projects 学习功能已上线，Projects 现在可以从任务对话中提炼可复用知识，并把它们转化为待审批的项目说明、文件或技能更新。该功能面向支持 Project instructions 与 Project files 的项目会话，所有变更必须经过用户授权后才会生效。
Misty
OpenAI 发布 MRC 协议加速大规模 AI 训练
工程实践
•
2026年5月6日 22:58
•
···
OpenAI 发布 MRC 协议，用于提升大规模 AI 训练集群中的 GPU 网络性能与故障韧性。该协议由 OpenAI 与 AMD、Broadcom、Intel、微软、NVIDIA 合作开发，已通过 Open Compute Project 开放规格。MRC 已部署在 OpenAI 最大规模的 NVIDIA GB200 超算集群中，用于训练多个前沿模型。
Misty
Gemma 4 推出 MTP drafter 推理加速最高 3 倍
模型动态
•
2026年5月6日 02:24
•
···
Google 发布 Multi-Token Prediction 方案，为 Gemma 4 MTP drafter 引入推测解码架构。该工具链将模型推理速度提升至多 3 倍，通过轻量级起草模型与目标模型的协同工作，在零质量损耗的前提下显著削减延迟。Gemma 官方开源模型仓库已同步更新相关工具链与使用文档。
Misty
OpenAI 推送 GPT-5.5 Instant 模型语气更简洁并升级个性化记忆
模型动态
•
2026年5月6日 01:26
•
···
OpenAI 推送 GPT-5.5 Instant 模型版本。该版本 API 标识为 gpt-5.5-chat-latest，将在未来两天内作为默认配置向所有 ChatGPT 用户推送。新模型在回答风格与事实准确性上进行了显著升级，并同步引入基于用户历史数据的个性化记忆功能。
Misty