爆料或为 Gemini 3.5 Flash 内部参数曝光
据 推文用户 Pankaj Kumar 披露,谷歌正准备推出一版主打极速推理与极低成本的 Flash 模型,或正式命名为 Gemini 3.5 Flash。该 Gemini 3.5 Flash 采用 distillation 与 sparsity 技术压缩架构,传闻多项查询响应延迟控制在 200 毫秒以内。

Gemini 3.5 Flash 内部参数与性能预期
据内部流消息透露,该 Flash 模型通过更强的 distillation 与 sparsity 压缩技术,将更大规模参数集的能力迁移至轻量架构中。在模型能力表现方面,内部测试预估其性能指标接近 Gemini 3.1 Pro 水平。通过架构压缩策略,谷歌致力于在维持 Flash 系列极低延迟的同时,弥合其与专业级 Pro 模型的质量差距。模型知识截止日期据称已更新至 2026 年 1 月。
极具竞争力的定价泄露方案
价格泄露信息指出,该 Flash 模型的输入定价约为 0.25 美元每百万 token,输出定价约为 2 美元每百万 token。这一定价方案若属实,将大幅压缩文本与多模态推理的调用成本,进一步巩固 Flash 模型在海量数据处理场景的性价比优势。此类爆料数据在官方确认前仍需保持审慎,实际 API 定价可能以谷歌云正式发布为准。
Grounding 与检索能力强化方向
泄露信息提及谷歌正将该模型的重心部分转向 grounding 与搜索可靠性优化。在实际工作流中,降低幻觉生成率是开发者最为关心的痛点之一。通过强化检索增强能力与内部知识库对接,该 Flash 模型旨在提供更稳定的事实性输出,以适配企业级自动化代理应用。
发布周期与行业影响评估
按照爆料节奏推演,该 Flash 模型有望亮相于 Google I/O 科技大会期间,或在大演讲正式召开前 1 至 2 天作为预热内容放出。这一发布模式与谷歌此前 Flash 系列产品的策略相符。考虑到当前开源模型与各大厂商轻量级变体的密集迭代,Flash 系列持续在延迟与价格维度下探将加剧实时交互市场的竞争烈度。厂商内部参数最终表现,仍需等待第三方 benchmark 跑分验证。
评论 ···