LLM 大模型邮报

Gemini 3.5 Flash 跑分出炉：Agentic 能力逼近 GPT-5.4，但成本暴涨 5 倍
模型动态
•
2026年5月20日 02:09
•
···
据 artificialanalysis 评测报告披露，Google 推出新一代 Flash 系列模型 Gemini 3.5 Flash，在 Intelligence Index 综合评测中斩获 55 分。该模型在复杂规划与幻觉抑制维度表现突出，支持图像、视频与语音多模态输入，上下文窗口维持 1M tokens。但该模型定价高达输入端 1.50 美元、输出端 9.00 美元，实际运行基准测试的绝对成本较上代飙升 5.5 倍。
Misty
Google 发布 Gemini 3.5 Flash：面向智能体工作流与代码生成的前沿推理模型
模型动态
•
2026年5月20日 01:53
•
···
Google 于 5 月 19 日发布 Gemini 3.5 Flash，定位前沿大模型与智能体工作流的双引擎。据 Google AI 官方博客披露，该模型在编码与长周期智能体任务上表现突出，输出速度约为其他前沿模型的 4 倍，并作为个人 AI 智能体 Gemini Spark 的默认底层架构。
Misty
Google 发布 Antigravity 2.0 桌面应用多 Agent 编排构建操作系统
模型动态
•
2026年5月20日 01:45
•
···
Google 在 2026 年 I/O 开发者大会上正式发布 Antigravity 2.0 独立桌面应用。该架构全面转向 Agent-first 原生设计, 核心聚焦多智能体对话编排与自动化制品生成。官方披露的实证测试显示, 93 个并行子 Agent 耗时 12 小时, 仅消耗不到 1000 美元 API 额度即可完成全套操作系统的底层构建, 标志着多智能体工程化迈入新阶段。
Misty
Google DeepMind 发布 Gemini 3.5 Flash：主打 agent 与 coding，定价低于竞品
模型动态
•
2026年5月20日 01:31
•
···
Google DeepMind 于 2026 年 5 月 20 日发布 Gemini 3.5 系列模型家族，首款产品 Gemini 3.5 Flash 定位 agent 与 coding 场景，在多项任务上超越前代 3.1 Pro，定价策略对标低价档位。据 Google DeepMind 官方推文，该模型已同步上线 Gemini App、Google Search AI Mode 及开发者平台。
Misty
Andrej Karpathy 加入 Anthropic，曾主导 Tesla Autopilot 视觉系统
行业观察
•
2026年5月19日 23:45
•
···
据 Andrej Karpathy 在 X 平台宣布，其已正式加入 Anthropic，重返大语言模型前沿研发一线。这位 OpenAI 创始成员、前 Tesla AI 总监在帖文中表示，未来数年对 LLM 发展至关重要，期待在新团队中投入研究与开发工作。同时，他强调对 AI 教育的热情不减，计划在适当时机重启相关项目。
Misty
Cloudflare 测试 Anthropic Mythos Preview 红队测试: 漏洞链式利用
模型动态
•
2026年5月19日 23:10
•
···
据 Cloudflare 官方博客披露,该公司近期在 Project Glasswing 内部项目中对 Anthropic Mythos Preview 完成深度安全红队测试。该模型可将散落在积压任务中的低危漏洞自动链式转换为真实利用链,并独立编写、编译和运行 PoC 实现闭环验证。本次 Mythos Preview 红队测试不仅验证了模型在攻击面测绘中的突破能力,也为安全团队的架构演进提供了关键数据。
Misty
Claude Managed Agents 发布自托管沙箱与 MCP 隧道功能
工程实践
•
2026年5月19日 16:31
•
···
Anthropic 于 2026 年 5 月 19 日宣布，Claude Managed Agents 正式支持 self-hosted sandboxes（自托管沙箱）与 MCP tunnels（MCP 隧道）两项企业级功能。据Anthropic 官方公告，self-hosted sandboxes 已进入 public beta，MCP tunnels 则处于 research preview 阶段，企业管理员可在 Claude Console 的 workspace settings 中申请访问。
Misty
Claude Code Fast mode 默认启用 Opus 4.7，响应速度提升 2.5 倍
工程实践
•
2026年5月19日 05:18
•
···
Claude Code Fast mode 现已将默认模型从 Opus 4.6 升级至 Opus 4.7，在保持输出质量不变的前提下，响应速度提升至约 2.5 倍。据 Anthropic 官方推文及文档说明，该模式采用不同的 API 配置以优先降低延迟，输入/输出定价统一为 30 美元/百万 token，适用于快速迭代与实时调试等延迟敏感场景。
Misty
Manus 发布 Scheduled Tasks 2.0：定时任务进入上下文感知时代
模型动态
•
2026年5月19日 04:59
•
···
据 Manus 官方博客介绍，Scheduled Tasks 2.0 已完成全量推送。该版本将定时任务从"按时触发"升级为"按上下文运行"，支持在同一会话中延续历史记录、为 Web 应用配置后台操作，并提供独立的调度视图与运行历史追踪。所有用户现已可在任务、Project 或自建 Web 应用中直接启用。
Misty
Cursor 发布 Composer 2.5：定向 RL 文本反馈与 Sharded Muon 优化器详解
工程实践
•
2026年5月19日 04:40
•
···
据 Cursor 官方博客，Composer 2.5 已正式向 Cursor 用户开放。该版本基于 Moonshot 的 Kimi K2.5 开源检查点持续预训练，在长任务持续执行、复杂指令遵循与协作体验上均有显著提升。输入定价 $0.50/百万 tokens，输出定价 $2.50/百万 tokens；快速版本定价 $3.00/$15.00，首周提供双倍用量额度。
Misty
Claude 提示词缓存诊断功能上线：精准定位缓存未命中分歧点
工程实践
•
2026年5月19日 04:31
•
···
Claude 推出 Prompt cache diagnostics 测试版功能，开发者传入指定 beta header 与上一条响应 ID 即可对比连续请求，精准定位导致缓存失效的具体位置。据 Anthropic 官方文档，该功能可识别模型参数、system prompt、工具定义或消息历史中首次出现差异的节点，帮助开发者修复根因而非盲目猜测。
Misty
Anthropic 收购 Stainless 补强开发者工具链，交易或达 3 亿美元
行业观察
•
2026年5月19日 03:19
•
···
Anthropic 于 2026 年 5 月 18 日宣布收购 SDK 与 MCP server 工具商 Stainless，交易金额据此前媒体报道或达 3 亿美元。据 Anthropic 官方公告，Stainless 自 2022 年起即为 Anthropic 生成各语言官方 SDK，其工具链将直接服务于 Claude 的 agent 连接能力扩展。
Misty