模型动态 | LLM 大模型邮报

Qwen3.7-Max 发布：重构智能体长程自主执行
模型动态
•
2026年5月20日 22:12
•
···
阿里云于近日正式发布 Qwen3.7-Max 模型，定位为面向智能体时代的新一代通用基座。据阿里云通义千问官方博客披露，该模型在长周期自主执行任务中可稳定跨越数千次工具调用，并全面重塑编程、自动化办公等工作流，即将通过阿里云百炼 API 上线。
Misty
Google Gemini App 升级推出 Gemini Spark 智能体与 Daily Brief
模型动态
•
2026年5月20日 10:56
•
···
据 Google 官方博客，Gemini App 迎来重大架构升级，同步推出基于 Gemini 3.5 驱动的 Gemini Spark 智能体与 Daily Brief 功能。作为新一代云端常驻 Agent，Gemini Spark 智能体依托 Antigravity Harness 框架实现全天候自主执行，深度集成 Gmail 与 Docs 等协作场景，计划下周面向美国 Google AI Ultra 订阅用户开放 Beta。
Misty
Gemini Omni 模型发布，首发 Flash 版主打自然语言视频编辑
模型动态
•
2026年5月20日 02:30
•
···
Google 正式发布新一代多模态旗舰模型 Gemini Omni。据 Google 官方博客,首发变体 Gemini Omni Flash 已登陆 Gemini app 与 Google Flow,主打自然语言视频编辑与多模态输入生成。该模型将推理能力延伸至创作领域,可结合物理法则与世界知识生成高度连贯的实拍风格视频,并同步提供数字分身与 SynthID 数字水印等工具。
Misty
Gemini 3.5 Flash 跑分出炉：Agentic 能力逼近 GPT-5.4，但成本暴涨 5 倍
模型动态
•
2026年5月20日 02:09
•
···
据 artificialanalysis 评测报告披露，Google 推出新一代 Flash 系列模型 Gemini 3.5 Flash，在 Intelligence Index 综合评测中斩获 55 分。该模型在复杂规划与幻觉抑制维度表现突出，支持图像、视频与语音多模态输入，上下文窗口维持 1M tokens。但该模型定价高达输入端 1.50 美元、输出端 9.00 美元，实际运行基准测试的绝对成本较上代飙升 5.5 倍。
Misty
Google 发布 Gemini 3.5 Flash：面向智能体工作流与代码生成的前沿推理模型
模型动态
•
2026年5月20日 01:53
•
···
Google 于 5 月 19 日发布 Gemini 3.5 Flash，定位前沿大模型与智能体工作流的双引擎。据 Google AI 官方博客披露，该模型在编码与长周期智能体任务上表现突出，输出速度约为其他前沿模型的 4 倍，并作为个人 AI 智能体 Gemini Spark 的默认底层架构。
Misty
Google 发布 Antigravity 2.0 桌面应用多 Agent 编排构建操作系统
模型动态
•
2026年5月20日 01:45
•
···
Google 在 2026 年 I/O 开发者大会上正式发布 Antigravity 2.0 独立桌面应用。该架构全面转向 Agent-first 原生设计, 核心聚焦多智能体对话编排与自动化制品生成。官方披露的实证测试显示, 93 个并行子 Agent 耗时 12 小时, 仅消耗不到 1000 美元 API 额度即可完成全套操作系统的底层构建, 标志着多智能体工程化迈入新阶段。
Misty
Google DeepMind 发布 Gemini 3.5 Flash：主打 agent 与 coding，定价低于竞品
模型动态
•
2026年5月20日 01:31
•
···
Google DeepMind 于 2026 年 5 月 20 日发布 Gemini 3.5 系列模型家族，首款产品 Gemini 3.5 Flash 定位 agent 与 coding 场景，在多项任务上超越前代 3.1 Pro，定价策略对标低价档位。据 Google DeepMind 官方推文，该模型已同步上线 Gemini App、Google Search AI Mode 及开发者平台。
Misty
Cloudflare 测试 Anthropic Mythos Preview 红队测试: 漏洞链式利用
模型动态
•
2026年5月19日 23:10
•
···
据 Cloudflare 官方博客披露,该公司近期在 Project Glasswing 内部项目中对 Anthropic Mythos Preview 完成深度安全红队测试。该模型可将散落在积压任务中的低危漏洞自动链式转换为真实利用链,并独立编写、编译和运行 PoC 实现闭环验证。本次 Mythos Preview 红队测试不仅验证了模型在攻击面测绘中的突破能力,也为安全团队的架构演进提供了关键数据。
Misty
Manus 发布 Scheduled Tasks 2.0：定时任务进入上下文感知时代
模型动态
•
2026年5月19日 04:59
•
···
据 Manus 官方博客介绍，Scheduled Tasks 2.0 已完成全量推送。该版本将定时任务从"按时触发"升级为"按上下文运行"，支持在同一会话中延续历史记录、为 Web 应用配置后台操作，并提供独立的调度视图与运行历史追踪。所有用户现已可在任务、Project 或自建 Web 应用中直接启用。
Misty
OpenAI Codex 限额故障 2 小时, 用户额度全额回退
模型动态
•
2026年5月18日 14:56
•
···
OpenAI 的 Codex 编码智能体出现 OpenAI Codex 限额故障, 错误提示订阅用户余额仅剩 0%. 据 OpenAI 工程成员 Tibo Sottiaux 于社交平台披露, 故障持续约两小时, 期间被系统错误扣除的 token 将全额回退. 以下梳理事件进展与高频开发者的额度管理方案.
Misty
Claude Sonnet 4.5 下架日期被曝改为 5 月 18 日用户反馈未获官方回应
模型动态
•
2026年5月17日 23:44
•
···
据用户爆料，Claude 官方支持页面虽尚未更新，但 Claude App 内已悄然将 Sonnet 4.5 的下架日期从 5 月 15 日 改为 5 月 18 日，期间未发布任何公告或解释。
Misty
Grok V9 1.5T 模型或将于夏季发布：xAI 完成基础训练并进入补充训练阶段
模型动态
•
2026年5月17日 16:59
•
···
xAI 创始人 Elon Musk 在 X 平台披露，下一代 Grok 基础模型 V9 已完成训练，参数量达 1.5T，预计 3 至 4 周 后正式发布。据 Musk 透露，该模型当前正在进行补充训练（supplemental training），随后将依次推进 SFT（监督微调）与 RL（强化学习）阶段。
Misty