Gemini 3.5 Flash 跑分出炉：Agentic 能力逼近 GPT-5.4，但成本暴涨 5 倍

据 artificialanalysis 评测报告披露，Google 推出新一代 Flash 系列模型 Gemini 3.5 Flash，在 Intelligence Index 综合评测中斩获 55 分。该模型在复杂规划与幻觉抑制维度表现突出，支持图像、视频与语音多模态输入，上下文窗口维持 1M tokens。但该模型定价高达输入端 1.50 美元、输出端 9.00 美元，实际运行基准测试的绝对成本较上代飙升 5.5 倍。

Gemini 3.5 Flash 在 Intelligence Index 模型跑分对比中取得高分

Agentic 能力大幅跃升，AI Agent 任务刷新记录

在 real-world 场景驱动的 GDPval-AA 评测体系中，Gemini 3.5 Flash 展现出实质性的能力跨越。其取得 1656 的 Elo 评分，大幅领先于上代 Gemini 3 Flash 的 1204 分以及 Gemini 3.1 Pro 的 1314 分。这一成绩仅略低于 GPT-5.4 (xhigh) 取得的 1674 分，印证了 Google 在长链路 Agent 规划领域的技术突破。

该模型在同系的 Tau2-Bench Telecom 工具调用测试中亦实现显著进步，充分反映出 Google 在复杂任务规划与多轮推理链路中的架构优化成效。Agentic 能力的显著跃升，有效弥补了 Flash 系列在需要深度工具交互场景中的相对短板。

Gemini 3.5 Flash 领跑综合智能指数

Gemini 3.5 Flash 在 Intelligence Index 中拿下 55 分，较前代大幅提升 9 分，不仅稳居同系列榜首，更在综合智能表现上逼近 Pro 级模型。模型在近乎全部的单项目标评测中均取得正向增益，其中 AA-Omniscience 知识问答与幻觉抑制指标提升最为显著，评分飙升 11 分。

幻觉率出现断层式下降，从 Gemini 3 Flash 的 92% 骤降至 61%，降幅达 31 个百分点，验证了模型在高可靠性输出领域的改进。同时，其推理吞吐速度超过 280 个 output tokens 每秒，比 Gemini 3 Flash 快约 70%，与 GPT-5.4 mini 等竞品处于同一梯队。

这种兼顾高吞吐量与低幻觉率的表现，使 Gemini 3.5 Flash 被置于智能与速度 Pareto 最优前沿，与 Gemini 3.1 Pro 等模型并列。这反映出 Google 在架构设计上进一步缩短了 Flash 系列与传统 Pro 系列之间的性能鸿沟。

全模态输入覆盖全面，视频与语音支持稀缺

在多模态输入维度，Gemini 3.5 Flash 凭借全模态底层架构在主流闭源模型中独占鳌头。该模型支持文本、图像、视频及语音的联合输入，仅输出文本结果。这与当前多数主流模型形成鲜明对比，包括 Claude Opus 4.7、Grok 4.3 与 GPT-5.5 均仅支持图像输入能力。

在 MMMU-Pro 多模态评测中，该模型直接斩获 84% 最高分，刷新了 Google 模型在此项指标的记录。同期发布的 Gemini 3.1 Pro 以 82% 紧随其后，占据评测榜首双席位。这种全模态架构优势，在涉及视频理解与长上下文语音处理等场景中具备显著不可替代性。 Gemini 3.5 Flash 多模态能力在 MMMU-Pro 数据中全面领先

推理成本攀升显著，高定价策略制约高频应用

尽管综合性能表现抢眼，但 Gemini 3.5 Flash 的定价与推理成本出现严重背离。在 Intelligence Index 的完整跑分链路中，该模型消耗成本高达 1552 美元，是上代 Gemini 3 Flash 的 5.5 倍，甚至超出 Gemini 3.1 Pro 75%。成本激增源于高昂的绝对定价与输入端 token 消耗量放大。

官方定价为输入端 1.50 美元/百万 tokens、输出端 9.00 美元/百万 tokens，较前代 0.50/3.00 美元定价上涨 3 倍。尽管提供 90% 的缓存输入折扣，但模型在开启高思维模式与多轮次 Agent 工具交互时触发了大量上下文填充，导致输入端 token 暴增，直接推高了整体运行开支。

这种成本结构的剧变，意味着开发者需权衡其性能增益与财务负担。高昂的绝对单价与推理开销可能显著抑制企业在密集 Agent 任务流中的部署意愿，对于延迟极度敏感且并发的商业场景而言，其投入产出比面临严峻评估。

该模型在综合智能指数与全模态处理上确立了 Flash 家族新标杆，但高昂的定价策略与超出同侪的推理成本，使其在面向高频 Agent 场景的商业落地中面临严苛的成本效益考量。长期部署效能仍需待真实业务负载验证。

Gemini 3.5 Flash 跑分出炉：Agentic 能力逼近 GPT-5.4，但成本暴涨 5 倍

Agentic 能力大幅跃升，AI Agent 任务刷新记录

Gemini 3.5 Flash 领跑综合智能指数

全模态输入覆盖全面，视频与语音支持稀缺

推理成本攀升显著，高定价策略制约高频应用

推荐阅读

Anthropic 被曝筹备 Claude Mythos 1,将集成至 Claude Code 与 Security

GPT-5.6 泄露：六月发布在即，iris-alpha 等三款变体曝光

OpenAI Codex 流量分配转向开源终端工具访问

Claude Mythos Preview 漏洞挖掘成果:Project Glasswing 首月发现逾万高危漏洞

评论 ···

Agentic 能力大幅跃升，AI Agent 任务刷新记录

Gemini 3.5 Flash 领跑综合智能指数

全模态输入覆盖全面，视频与语音支持稀缺

推理成本攀升显著，高定价策略制约高频应用

分享

推荐阅读

评论 ···