工程实践 | LLM 大模型邮报

ChatGPT 曝 Codex 移动端控制功能
工程实践
•
2026年5月11日 16:10
•
···
据用户在 X 平台发布的截图，ChatGPT 移动应用短暂出现 Codex 连接页面，提示用户将可直接从 ChatGPT 控制 Codex。Codex 移动端控制目前仍属于预告与应用内线索阶段，OpenAI 尚未正式发布完整功能。若该能力上线，Codex 可能从桌面编码工具扩展为跨设备的远程开发控制台。
Misty
Opus 4.7 提示词需重写：7 个修复法
工程实践
•
2026年5月10日 15:56
•
···
据 God of Prompt 在 X 平台发帖称，Opus 4.7 提示词需要从 Claude Opus 4.6 的写法中迁移。帖文称，Claude Opus 4.7 在 SWE-bench 上达到 87.6%，高于 Opus 4.6 的 80.8%，但旧提示词可能因模型更严格执行字面指令而变窄、变短，甚至输出不完整。
Misty
Hermes Agent 排名登顶 OpenRouter 全球榜
工程实践
•
2026年5月10日 13:49
•
···
Hermes Agent 排名在 OpenRouter 全球 token 榜升至第 1。Hermes Agent 是 Nous Research 推出的开源、自改进 AI agent，支持跨会话记忆、持久运行、可复用技能沉淀、40 多个内置工具、定时自动化与 subagents。OpenRouter 页面显示，Hermes Agent 近 30 天使用量达到 6.4T tokens，并在生产力、编码智能体、个人智能体与 CLI 智能体分类中均列第 1。
Misty
Amp CLI 全面重构（代号 Neo）上下文满了自动压缩续接
工程实践
•
2026年5月9日 23:00
•
···
Sourcegraph 团近日已完成 Amp CLI 重构，新版本代号 Neo，已开始分阶段推送。Amp CLI 重构的三项核心变化是：上下文窗口达 90% 时自动压缩续接、取代用户此前需要的手动切线操作；可从 ampcode.com 远程控制本地 thread；Plugin API 正式发布。性能数据上 CPU 占用降低 **79%**、内存占用降低 **70%**。
Misty
OpenAI 详解 Codex 安全部署边界
工程实践
•
2026年5月9日 14:04
•
···
OpenAI 在官方文章中披露 Codex 安全部署的控制体系，重点包括沙箱、审批、网络策略、身份绑定、规则管理与 agent-native telemetry。OpenAI 的目标是让 Codex 在低风险开发任务中保持效率，同时让高风险动作进入显式审批。对企业安全团队而言，这提供了一套可复用的 coding agent 治理样板。
Misty
Mozilla 用 Claude Mythos 做 Firefox 安全加固
工程实践
•
2026年5月9日 13:56
•
···
Mozilla 披露了 Firefox 安全加固的内部流程：团队使用 Claude Mythos Preview、Claude Opus 4.6 与其他模型，结合自研 agentic harness 发现并修复潜伏安全漏洞。Mozilla 称，Claude Mythos Preview 在 Firefox 150 版本中识别的漏洞修复数量为 271 个；Firefox 在 2026 年 4 月发布的安全修复数量升至 423 个。这次 Firefox 安全加固的重点不是一次性提示模型，而是把模型接入可复现测试、去重、分诊、补丁与发布流程。
Misty
Grok Build 桌面应用被曝对标 Codex
工程实践
•
2026年5月9日 09:54
•
···
据报道，SpaceXAI 正在筹备 Grok Build 桌面编码应用，目标是进入 agentic coding 工具赛道。Grok Build 桌面应用曾因 Grok 网页端短暂出现的 Grok Computer 按钮而曝光，但相关功能随后被撤下。早期访问截图显示，它面向 macOS、Linux 与 Windows，并试图对标 OpenAI Codex 桌面应用与 Anthropic Claude Code。
Misty
Claude Code HTML 工作流提升可读性
工程实践
•
2026年5月9日 09:45
•
···
Claude Code HTML 工作流正在从 Markdown 规格文档转向更丰富的 HTML artifact。Thariq 来自 Claude Code 团队，他在 X 平台原帖中给出的核心判断是：当 agent 输出超过 100 行时，HTML 更适合承载可视化、交互和可分享的上下文。这个建议不是要求替换所有文本，而是把规划、评审、研究报告和一次性编辑器交给浏览器呈现。
Misty
OpenAI 微调 API 将停止新训练
工程实践
•
2026年5月9日 01:33
•
···
OpenAI 微调 API 将进入逐步下线期。根据用户收到的 OpenAI 通知，现有活跃客户可继续创建微调训练任务至 2027 年 1 月 6 日，此后将无法再创建新的训练任务。现有微调模型仍可通过 Chat Completions API 和 Responses API 推理，但会在对应底座模型退役后停止可用。
Misty
Claude 接入 Microsoft 365 四件套
工程实践
•
2026年5月8日 13:15
•
···
Anthropic 官方公布 Claude 接入 Microsoft 365 的新进展：Claude for Excel、PowerPoint 和 Word 已正式可用，Claude for Outlook 进入公开 beta。Claude 接入 Microsoft 365 后，可在 Excel、PowerPoint、Word 和 Outlook 之间保留同一段对话上下文，面向 Claude Enterprise 与付费计划用户提供跨应用协作能力。
Misty
OpenAI 推出 Codex Chrome 扩展
工程实践
•
2026年5月8日 09:56
•
···
OpenAI 推出 Codex Chrome 扩展，让 Codex 可直接在 macOS 与 Windows 的 Chrome 中执行浏览器任务。根据 OpenAI 公布的信息，新扩展支持后台跨标签页并行工作，覆盖结构化页面导航、复杂表单录入、调试浏览器流程、检查仪表盘、研究与更新 CRM 等场景。该功能已在 Codex 应用中面向除欧盟与英国以外的所有地区开放。
Misty
Qwen 3.6 MTP 推理加速 2.5 倍
工程实践
•
2026年5月7日 20:22
•
···
llama.cpp 的 PR 22673 为 Qwen 3.6 加入 MTP speculative decoding 支持，让 Qwen 3.6 MTP 推理加速成为本地编码 agent 场景的新选项。作者在 M2 Max 96 GB 上报告约 2.5 倍生成提速，速度达到 28 tok/s，并称 48 GB 级 Mac 或显存系统可承载最高 262144 tokens 上下文。
Misty