Google 发布 Multi-Token Prediction 方案,为 Gemma 4 MTP drafter 引入推测解码架构。该工具链将模型推理速度提升至多 3 倍,通过轻量级起草模型与目标模型的协同工作,在零质量损耗的前提下显著削减延迟。Gemma 官方开源模型仓库已同步更新相关工具链与使用文档。

Gemma 4 搭载 MTP drafter 的推理速度对比与架构优化示意图

Gemma 4 MTP drafter 推测解码机制

标准大语言模型采用自回归方式逐词生成文本,处理简单延续与复杂逻辑推理消耗的计算资源相当。Google 引入的 Multi-Token Prediction 通过解耦令牌生成与验证环节缓解此瓶颈。轻量级 MTP drafter 可在目标模型处理单个令牌的时间内,并行预测多个未来令牌。目标模型随后以单次前向传播(single forward pass)对所有草稿令牌进行验证并接收。若目标模型确认草稿匹配,系统甚至会额外输出一枚令牌,从而在单次迭代中产出多枚令牌组合。

架构优化与硬件批处理策略

MTP drafter 在架构层面直接复用目标模型的激活状态与 KV cache,避免大模型重复计算上下文。针对边缘设备(E2B 与 E4B 模型)的 logit 计算瓶颈,draft 模型还在 embedder 中嵌入了高效聚类(clustering)技术以进一步提速。硬件适配方面,测试显示 26B MoE 模型在 Apple Silicon 设备处理单请求(batch size 1)时面临特定路由挑战,但在并发多请求(batch size 4 至 8)时可实现约 2.2 倍的本地加速;Nvidia A100 GPU 在同样提升批处理规模的场景中也观测到类似增益。Google 同步公开了深入的技术架构解析。架构解析技术文档

消费级工作站与边缘端性能释放

推测解码方案直接面向本地部署与移动端场景。开发者可在个人电脑与消费级显卡上流畅运行 Gemma 4 的 31B 稠密模型26B 混合专家模型,显著降低复杂离线代码分析与智能体工作流的等待时间。在移动端或纯离线设备上,加速生成过程有助于延长设备电池续航。该提速机制适用于需快速多步规划的自主智能体、近实时对话及沉浸式语音应用,核心 Gemma 4 模型的最终验证保留了前沿级推理准确率。

多平台开源支持与工具链集成

Gemma 4 的 MTP drafters 权重已完全开源,沿用 Apache 2.0 许可证。模型权重已上线 Hugging FaceKaggle 供开发者下载。当前工具链支持 LiteRT-LM、MLX、Hugging Face Transformers、vLLM、SGLang 与 Ollama。Google AI Edge Gallery 也已提供针对 Android 与 iOS 端的直接体验入口。相关生态整合进展可参考 Google 开发者官方推文。 Gemma 4 MTP drafter 的推出进一步压低了本地运行大语言模型的硬件门槛。通过推测解码削减显存带宽瓶颈,开发者在消费级设备上的推理延迟将大幅缩短,但硬件批处理策略的调度优化仍是释放最大吞吐量的关键约束。未来多令牌预测方案与混合专家架构的深度融合,或将成为边缘智能设备提升响应速度的主流工程路径。

评论 ···