LLM 大模型邮报

Manus 上线连接器推荐功能任务流程无需手动配置
工程实践
•
2026年5月6日 00:06
•
···
Manus 推出连接器推荐（Connector Recommendations）功能，在用户对话流程中自动识别任务所需的第三方服务集成。该功能无需用户手动跳转至设置页面选择，只需确认授权即可启用，从而减少自动化工作流的前期配置摩擦。
Misty
Gemini 3.2 Flash 定价泄露：预期发布或指向 5 月 I/O
模型动态
•
2026年5月6日 00:00
•
···
据 X 平台用户 @pankajkumar_dev 的爆料原帖，Gemini 3.2 Flash 预期发布已进入最后观察期。部分用户报告该模型已陆续出现在 Google AI Studio 与 iOS 应用内。接口日志显示其可能于 2026 年 5 月推出，时间窗口大概率围绕 Google I/O 大会或提前 1 到 2 天。
Misty
Peanut 图像生成模型亮相专业横评对比 FLUX.2
模型动态
•
2026年5月5日 22:20
•
···
Peanut 图像生成模型于 5 月 4 日出现在 Artificial Analysis 的专业多模型横评中。该模型与 MAI-Image-2、grok-imagine-image 及 FLUX.2 [dev] Turbo 一同参与测试，评测采用 5 组涵盖艺术风格、写实摄影与动漫风格的复杂提示词，直观展示各模型的文本解析与视觉生成能力。
Misty
OpenAI Codex 下载量一周激增 1397% 迅速超越 Claude Code
工程实践
•
2026年5月5日 21:01
•
···
TickerTrends 数据显示，OpenAI 编码智能体 Codex 下载量在近日呈现指数级跃升。截至 5 月 3 日当周下载量达 8610 万 次（环比增长 1397%），于 4 月 30 日 版本更新后迅速超越 Anthropic Claude Code 的 720 万 下载量，引发开发者工具生态的短期重新分配。
Misty
OpenAI 重塑 WebRTC 架构实现语音 AI 低延迟全球部署
工程实践
•
2026年5月5日 16:39
•
···
OpenAI 公布重构 ChatGPT Voice 与 Realtime API 底层通信栈的工程方案。团队为应对超 9 亿周内活跃用户带来的规模挑战，放弃原生单会话单端口模式，转向 Split relay 结合 transceiver 的新型设计。这构成了 OpenAI WebRTC 架构改造的核心路径，旨在兼顾标准协议兼容性与云端状态管理效率。
Misty
OpenRouter 实测 GPT-5.5 价格翻倍实际成本增幅达 92%
行业观察
•
2026年5月5日 16:15
•
···
OpenAI 发布 GPT-5.5 模型时同步将定价上调至上一代（GPT-5.4）的两倍，但真实使用场景中的成本涨幅受生成长度影响存在显著差异。根据 OpenRouter 针对用户切换日志的追踪，实际使用成本整体上升 49% 至 92%。在长上下文场景中，模型生成的缩短部分抵消了单价上涨的代价。
Misty
Anthropic 开发 Orbit 助手或将在开发者大会亮相
模型动态
•
2026年5月5日 11:22
•
···
Anthropic 正在开发名为 Orbit 的新功能，Anthropic Orbit 助手被定位为面向 Claude Cowork 的主动式简报系统。近期在 Anthropic 的 web 与 mobile 构建版本中，该工具的测试入口已现身设置面板。结合代码描述，系统计划整合 Gmail、GitHub、Figma 等办公软件生成个性化洞察，预计面向开发者推出。
Misty
Grok 4.3 benchmark 登顶法律金融测试跑分数据公布
模型动态
•
2026年5月5日 00:52
•
···
xAI 公开 Grok 4.3 在两项私有法律与金融推理基准测试中的跑分数据。该模型在 CaseLaw v2 与 CorpFin v2 榜单中均取得排名第一的成绩，其中法律榜单直接超越 GPT-5.1。
Misty
监督微调为何诱发幻觉？自蒸馏将 SFT 诱导误差降至 3%
研究前沿
•
2026年5月4日 23:10
•
···
最新研究揭示，大语言模型在通过监督微调（SFT）注入新事实知识时，极易诱发表面合理的错误陈述。耶路撒冷希伯来大学等机构团队指出，该现象本质是持续学习中的“事实遗忘”。团队提出基于自蒸馏的 SFT 优化方法，通过正则化输出分布漂移，将 SFT 诱导幻觉率从约 15% 降至约 3%，同时保持新知识的获取效率。
Misty