Gemini 3.5 Flash 跑分出炉:Agentic 能力逼近 GPT-5.4,但成本暴涨 5 倍
据 artificialanalysis 评测报告 披露,Google 推出新一代 Flash 系列模型 Gemini 3.5 Flash,在 Intelligence Index 综合评测中斩获 55 分。该模型在复杂规划与幻觉抑制维度表现突出,支持图像、视频与语音多模态输入,上下文窗口维持 1M tokens。但该模型定价高达输入端 1.50 美元、输出端 9.00 美元,实际运行基准测试的绝对成本较上代飙升 5.5 倍。

Agentic 能力大幅跃升,AI Agent 任务刷新记录
在 real-world 场景驱动的 GDPval-AA 评测体系中,Gemini 3.5 Flash 展现出实质性的能力跨越。其取得 1656 的 Elo 评分,大幅领先于上代 Gemini 3 Flash 的 1204 分以及 Gemini 3.1 Pro 的 1314 分。这一成绩仅略低于 GPT-5.4 (xhigh) 取得的 1674 分,印证了 Google 在长链路 Agent 规划领域的技术突破。
该模型在同系的 Tau2-Bench Telecom 工具调用测试中亦实现显著进步,充分反映出 Google 在复杂任务规划与多轮推理链路中的架构优化成效。Agentic 能力的显著跃升,有效弥补了 Flash 系列在需要深度工具交互场景中的相对短板。
Gemini 3.5 Flash 领跑综合智能指数
Gemini 3.5 Flash 在 Intelligence Index 中拿下 55 分,较前代大幅提升 9 分,不仅稳居同系列榜首,更在综合智能表现上逼近 Pro 级模型。模型在近乎全部的单项目标评测中均取得正向增益,其中 AA-Omniscience 知识问答与幻觉抑制指标提升最为显著,评分飙升 11 分。
幻觉率出现断层式下降,从 Gemini 3 Flash 的 92% 骤降至 61%,降幅达 31 个百分点,验证了模型在高可靠性输出领域的改进。同时,其推理吞吐速度超过 280 个 output tokens 每秒,比 Gemini 3 Flash 快约 70%,与 GPT-5.4 mini 等竞品处于同一梯队。
这种兼顾高吞吐量与低幻觉率的表现,使 Gemini 3.5 Flash 被置于智能与速度 Pareto 最优前沿,与 Gemini 3.1 Pro 等模型并列。这反映出 Google 在架构设计上进一步缩短了 Flash 系列与传统 Pro 系列之间的性能鸿沟。
全模态输入覆盖全面,视频与语音支持稀缺
在多模态输入维度,Gemini 3.5 Flash 凭借全模态底层架构在主流闭源模型中独占鳌头。该模型支持文本、图像、视频及语音的联合输入,仅输出文本结果。这与当前多数主流模型形成鲜明对比,包括 Claude Opus 4.7、Grok 4.3 与 GPT-5.5 均仅支持图像输入能力。
在 MMMU-Pro 多模态评测中,该模型直接斩获 84% 最高分,刷新了 Google 模型在此项指标的记录。同期发布的 Gemini 3.1 Pro 以 82% 紧随其后,占据评测榜首双席位。这种全模态架构优势,在涉及视频理解与长上下文语音处理等场景中具备显著不可替代性。
推理成本攀升显著,高定价策略制约高频应用
尽管综合性能表现抢眼,但 Gemini 3.5 Flash 的定价与推理成本出现严重背离。在 Intelligence Index 的完整跑分链路中,该模型消耗成本高达 1552 美元,是上代 Gemini 3 Flash 的 5.5 倍,甚至超出 Gemini 3.1 Pro 75%。成本激增源于高昂的绝对定价与输入端 token 消耗量放大。
官方定价为输入端 1.50 美元/百万 tokens、输出端 9.00 美元/百万 tokens,较前代 0.50/3.00 美元定价上涨 3 倍。尽管提供 90% 的缓存输入折扣,但模型在开启高思维模式与多轮次 Agent 工具交互时触发了大量上下文填充,导致输入端 token 暴增,直接推高了整体运行开支。
这种成本结构的剧变,意味着开发者需权衡其性能增益与财务负担。高昂的绝对单价与推理开销可能显著抑制企业在密集 Agent 任务流中的部署意愿,对于延迟极度敏感且并发的商业场景而言,其投入产出比面临严峻评估。
该模型在综合智能指数与全模态处理上确立了 Flash 家族新标杆,但高昂的定价策略与超出同侪的推理成本,使其在面向高频 Agent 场景的商业落地中面临严苛的成本效益考量。长期部署效能仍需待真实业务负载验证。
评论 ···