Anthropic 宣布将开源对齐评测工具 Petri 的开发移交给 AI 评估非营利机构 Meridian Labs,并同步更新到 Petri 3.0。Petri 3.0 对齐评测面向大语言模型的欺骗、阿谀和配合有害请求等风险行为,已被用于 Claude Sonnet 4.5 以来每个 Claude 模型的对齐评估。
OpenAI 在 Realtime API 发布 GPT-Realtime-2 语音模型、GPT-Realtime-Translate 与 GPT-Realtime-Whisper。3 款模型分别覆盖实时语音推理、实时语音翻译与流式语音转写,面向可对话、可调用工具、可跨语言工作的语音应用。GPT-Realtime-2 的上下文窗口从 32K 扩展到 128K,并提供从 minimal 到 xhigh 的可调推理强度。
OpenAI 推出 Codex Chrome 扩展,让 Codex 可直接在 macOS 与 Windows 的 Chrome 中执行浏览器任务。根据 OpenAI 公布的信息,新扩展支持后台跨标签页并行工作,覆盖结构化页面导航、复杂表单录入、调试浏览器流程、检查仪表盘、研究与更新 CRM 等场景。该功能已在 Codex 应用中面向除欧盟与英国以外的所有地区开放。
Scale Labs 发布 Refactoring Leaderboard,用于评测 AI coding agents 在复杂代码库中重构代码的能力。该榜单是 SWE Atlas 研究套件的最后一项支柱,重点衡量智能体是否能在不改变既有行为的前提下调整代码结构。
据 Aakash Gupta 披露,OpenAI 董事会风波期间,Sam Altman 曾提出让 Microsoft 收购 OpenAI。相关对话发生在 2023 年 11 月被解雇当晚,原帖称 Altman 同时给出离开公司、让 Emmett Shear 出任 CEO、交由 Microsoft 收购等选项。OpenAI 董事会风波的这组细节,重新暴露了当时治理目标、创始人控制权与 Microsoft 关系之间的张力。
llama.cpp 的 PR 22673 为 Qwen 3.6 加入 MTP speculative decoding 支持,让 Qwen 3.6 MTP 推理加速成为本地编码 agent 场景的新选项。作者在 M2 Max 96 GB 上报告约 2.5 倍生成提速,速度达到 28 tok/s,并称 48 GB 级 Mac 或显存系统可承载最高 262144 tokens 上下文。
Anthropic 正式发布 Claude Managed Agents 平台新功能。 本次 Claude Managed Agents 新功能覆盖梦境机制(Dreaming)自动提炼记忆、Outcomes 独立评分器引导自校正,以及多智能体并行编排。 Dreaming 功能目前处于研究预览阶段,其余功能已开放公共测试版。
Anthropic 官方宣布提高 Claude 用量上限,并披露与 SpaceX 达成新的算力合作。调整已于 2026 年 5 月 6 日生效,覆盖 Claude Code、Claude API、Claude Pro 与 Claude Max 等用户群。SpaceX 的 Colossus 1 数据中心将在 1 个月内为 Anthropic 提供超过 300 MW 的新增容量,规模对应超过 220000 块 NVIDIA GPU。
Manus Projects 学习功能已上线,Projects 现在可以从任务对话中提炼可复用知识,并把它们转化为待审批的项目说明、文件或技能更新。该功能面向支持 Project instructions 与 Project files 的项目会话,所有变更必须经过用户授权后才会生效。
OpenAI 发布 MRC 协议,用于提升大规模 AI 训练集群中的 GPU 网络性能与故障韧性。该协议由 OpenAI 与 AMD、Broadcom、Intel、微软、NVIDIA 合作开发,已通过 Open Compute Project 开放规格。MRC 已部署在 OpenAI 最大规模的 NVIDIA GB200 超算集群中,用于训练多个前沿模型。
Google 发布 Multi-Token Prediction 方案,为 Gemma 4 MTP drafter 引入推测解码架构。该工具链将模型推理速度提升至多 3 倍,通过轻量级起草模型与目标模型的协同工作,在零质量损耗的前提下显著削减延迟。Gemma 官方开源模型仓库已同步更新相关工具链与使用文档。
OpenAI 推送 GPT-5.5 Instant 模型版本。该版本 API 标识为 gpt-5.5-chat-latest,将在未来两天内作为默认配置向所有 ChatGPT 用户推送。新模型在回答风格与事实准确性上进行了显著升级,并同步引入基于用户历史数据的个性化记忆功能。