Google 于 5 月 19 日发布 Gemini 3.5 Flash,定位前沿大模型与智能体工作流的双引擎。据 Google AI 官方博客 披露,该模型在编码与长周期智能体任务上表现突出,输出速度约为其他前沿模型的 4 倍,并作为个人 AI 智能体 Gemini Spark 的默认底层架构。

Gemini 3.5 Flash 性能对比图表展示前沿速度优势

3.5 Flash 基准测试与架构定位

据谷歌官测,Gemini 3.5 Flash 在 Terminal-Bench 2.1 上达到 76.2%,MCP Atlas 达到 83.6%,字符推理任务 CharXiv Reasoning 达到 84.2%。在代理类基准测试 GDPval-AA 中,其得分高达 1656 Elo。在输出速度维度上,其每秒生成 token 数约为其他主流前沿模型的 4 倍。该模型在 Artificial Analysis 指数中落入性能与速度的双高象限,证明延迟与质量不再需要妥协。

作为 Flash 系列的最新迭代,3.5 Flash 采用稠密架构设计,兼顾多模态理解与代码生成能力。与上一代 3.1 Pro 相比,其在复杂智能体编排与代码库维护等场景中实现了代际跨越。官方表示该模型已作为 Gemini App 和 Search AI Mode 的默认底层架构覆盖全球数十亿用户。

3.5 Flash 在 Antigravity 平台执行多步工作流演示

长周期工作流与自动化落地场景

长周期多步工作流是 3.5 Flash 的核心发力点。以往需要开发者数日或审计员数周完成的任务,该模型可在极短时间内迭代解决,且推理成本通常低于其他前沿模型的一半。结合新版 Antigravity harness,3.5 Flash 能够调度并协作多个子智能体,处理如非结构化资产动态归类、代码库长期维护等高频场景。

在可视化生成方面,3.5 Flash 继承了 Gemini 3 的多模态底层能力,支持生成更丰富的交互式 Web UI 与动态图表。开发者在 API Studio 中可直接调用该模型生成研究论文的交互式动画,大幅降低前端动效的制作门槛。企业合作方如 Shopify 已将其并行子智能体应用于商户增长预测,通过长周期数据处理提升分析精度。

Gemini Spark 个人智能体与生态部署

Gemini 3.5 Flash 将全面支撑个人 AI 智能体矩阵。新推出的 Gemini Spark 作为 24/7 在线的个人数字助手,依托该模型在后台持续运行,支持按计划自动执行文件处理、日程管理与跨应用指令。目前 Google 已启动受信任测试员的内测,并计划于 6 月初向美国地区的 Google AI Ultra 订阅用户开放 Beta 版。

在搜索体验层面,3.5 Flash 的代码生成能力直接赋能 Search 动态交互界面。模型可为查询生成即时交互式数据可视化面板与 24/7 信息跟踪代理,搜索逻辑从静态返回摘要转向实时交互式执行。该模型同时通过 Google Antigravity 平台、Gemini API、Android Studio 以及企业级 Agent Platform 面向开发者和商业客户开放部署。

Gemini Spark 个人智能体执行任务界面截图

安全合规架构与 Pro 版本预期

3.5 Flash 的开发遵循前沿安全框架,重点强化了针对网络攻击与生化威胁内容的合规拦截。谷歌引入了可解释性推理检查工具,在模型生成输出前验证其内部逻辑路径,从而降低恶意提示词绕过概率与过度拒绝安全查询的频率。

在产品线节奏方面,官方确认 3.5 Pro 已完成内部测试,定于 6 月中旬正式推出。参考 Flash 系列的性能释放策略,Pro 版本预计将在复杂推理深度与多模态长上下文处理上进一步拓展边界,后续需关注其在真实企业工作流中的实际延迟表现与 API 定价策略。

考虑到基准数据仍为厂商官测且对比基线偏向 Flash 系列自身迭代,实际智能体执行稳定性与企业级长上下文吞吐量仍需等待第三方红队测试与开发者真实业务验证。3.5 Pro 的定价与 Antigravity 平台的商业化进度将是评估该架构真正落地价值的关键节点。

评论 ···