LLM 大模型邮报

ChatGPT 曝 Codex 移动端控制功能
工程实践
•
2026年5月11日 16:10
•
···
据用户在 X 平台发布的截图，ChatGPT 移动应用短暂出现 Codex 连接页面，提示用户将可直接从 ChatGPT 控制 Codex。Codex 移动端控制目前仍属于预告与应用内线索阶段，OpenAI 尚未正式发布完整功能。若该能力上线，Codex 可能从桌面编码工具扩展为跨设备的远程开发控制台。
Misty
OpenAI o1 急诊诊断超越医生
研究前沿
•
2026年5月11日 03:16
•
···
根据 Science 报道，一项新研究测试了 OpenAI o1 在临床诊断任务中的表现。OpenAI o1 急诊诊断在早期急诊病例中识别出精确或接近诊断的比例约为 67%，高于医生的约 50% 至 55%。研究同时强调，o1 只读取书面病例信息，尚未覆盖影像、长住院记录等真实医疗输入。
Misty
Anthropic 用宪法文档降低 Claude 代理失准
研究前沿
•
2026年5月10日 19:19
•
···
Anthropic 官方称，围绕 Claude 宪法编写的高质量文档与描写对齐 AI 的虚构故事，可将 Claude 代理失准降低到原来的三分之一以下。这些干预与评测场景无关，但效果在 reinforcement learning 后仍保留，并可与常规 harmlessness training 叠加。
Misty
Opus 4.7 提示词需重写：7 个修复法
工程实践
•
2026年5月10日 15:56
•
···
据 God of Prompt 在 X 平台发帖称，Opus 4.7 提示词需要从 Claude Opus 4.6 的写法中迁移。帖文称，Claude Opus 4.7 在 SWE-bench 上达到 87.6%，高于 Opus 4.6 的 80.8%，但旧提示词可能因模型更严格执行字面指令而变窄、变短，甚至输出不完整。
Misty
Hermes Agent 排名登顶 OpenRouter 全球榜
工程实践
•
2026年5月10日 13:49
•
···
Hermes Agent 排名在 OpenRouter 全球 token 榜升至第 1。Hermes Agent 是 Nous Research 推出的开源、自改进 AI agent，支持跨会话记忆、持久运行、可复用技能沉淀、40 多个内置工具、定时自动化与 subagents。OpenRouter 页面显示，Hermes Agent 近 30 天使用量达到 6.4T tokens，并在生产力、编码智能体、个人智能体与 CLI 智能体分类中均列第 1。
Misty
微软 OpenAI 合作文件披露曾担忧转投 AWS
行业观察
•
2026年5月10日 09:54
•
···
法庭文件披露了微软 OpenAI 合作早期的关键谈判细节。2017 年，OpenAI 曾向微软提出约 3 亿美元 Azure 标价算力需求，微软内部随后评估投入回报，并担忧 OpenAI 转向亚马逊云服务 AWS 后公开批评 Azure。该文件来自 Musk v. Altman 诉讼，展示了这段合作在正式 10 亿美元投资前的犹豫与权衡。
Misty
Anthropic 融资估值被曝近1万亿美元
行业观察
•
2026年5月10日 01:34
•
···
据 Financial Times 报道，Anthropic 融资估值可能在新一轮交易中接近 1 万亿美元。知情人士称，这家 Claude 背后的 AI 公司正权衡今夏筹集数百亿美元，用于扩大计算能力。交易尚未敲定，Anthropic 与多家投资机构也未公开确认最终条款。
Misty
ChatGPT 老是爱回复"稳稳接住你"是怎么回事？
行业观察
•
2026年5月10日 00:38
•
···
ChatGPT 有个让中国用户集体翻白眼的毛病：无论你问它数学题还是让它生成图片，它都爱回你一句 — —
“我会稳稳地接住你。”
Misty
Amp CLI 全面重构（代号 Neo）上下文满了自动压缩续接
工程实践
•
2026年5月9日 23:00
•
···
Sourcegraph 团近日已完成 Amp CLI 重构，新版本代号 Neo，已开始分阶段推送。Amp CLI 重构的三项核心变化是：上下文窗口达 90% 时自动压缩续接、取代用户此前需要的手动切线操作；可从 ampcode.com 远程控制本地 thread；Plugin API 正式发布。性能数据上 CPU 占用降低 **79%**、内存占用降低 **70%**。
Misty
Claude Sonnet 4.5 将于 5 月 15 日下架
模型动态
•
2026年5月9日 20:46
•
···
Anthropic 已在 Claude app 内通过 pop-up 与官方支持页面 Note 形式确认 Claude Sonnet 4.5 将于 2026 年 5 月 15 日从 Claude 模型选择器中下架。该模型于 2025 年 9 月 29 日发布，消费端在线时长约 7.5 个月。API 端 claude-sonnet-4-5-20250929 时间表保留至最少 2026 年 9 月 29 日。
Misty
Claude Mythos 时间跨度达 17 小时但超可靠范围
研究前沿
•
2026年5月9日 17:29
•
···
METR 于 2026 年 5 月 8 日更新前沿 AI 模型任务完成时间跨度评测页面，新增 Claude Mythos 时间跨度数据点。Claude Mythos Preview (early) 的 50% 时间跨度测得约 17 小时。METR 同步标注，现有任务集对 16 小时以上的测量不可靠，因此这个数值更适合作为能力触及评测上限的信号，而非精确刻度。
Misty
OpenAI 详解 Codex 安全部署边界
工程实践
•
2026年5月9日 14:04
•
···
OpenAI 在官方文章中披露 Codex 安全部署的控制体系，重点包括沙箱、审批、网络策略、身份绑定、规则管理与 agent-native telemetry。OpenAI 的目标是让 Codex 在低风险开发任务中保持效率，同时让高风险动作进入显式审批。对企业安全团队而言，这提供了一套可复用的 coding agent 治理样板。
Misty