Qwen 3.6 MTP 推理加速 2.5 倍
llama.cpp 的 PR 22673 为 Qwen 3.6 加入 MTP speculative decoding 支持,让 Qwen 3.6 MTP 推理加速成为本地编码 agent 场景的新选项。作者在 M2 Max 96 GB 上报告约 2.5 倍生成提速,速度达到 28 tok/s,并称 48 GB 级 Mac 或显存系统可承载最高 262144 tokens 上下文。

Qwen 3.6 MTP 推理加速来自内置预测头
llama.cpp PR 22673 新增了对 Qwen 3.6 27B MTP 的支持。MTP 指 multi-token prediction,利用模型内置的多 token 预测头做 speculative decoding。作者发布了包含 MTP tensors 的 Qwen 3.6 27B MTP GGUF 权重,并给出核心启动组合:--spec-type mtp、--spec-draft-n-max 5、q4_0 或 q8_0 KV-cache 量化。报告中的本地配置在 M2 Max 96 GB 上达到 28 tok/s,约为未启用 MTP 时的 2.5 倍。这一数字对本地编码 agent 重要,因为 decode 阶段常决定长任务的交互延迟。
262144 tokens 上下文与 48 GB 本地硬件门槛
作者称,该方案可在 48 GB 级 Mac 或 VRAM-class 系统上运行长上下文,最高配置到 262144 tokens。这使 Qwen 3.6 27B 更接近本地 agentic coding 的可用门槛,尤其适合需要读取大型代码仓库、长日志与多轮工具调用历史的任务。限制同样明确:当前 MTP 支持需要从 PR 分支自行编译 llama.cpp;q4_0 KV-cache 会带来一定质量损失;视觉输入在搭配 MTP 时会导致 llama.cpp 崩溃。作者还上传了非 vLLM 专用的 Qwen 修复版 Jinja chat templates,用于改善本地 OpenAI 与 Anthropic 兼容端点的接入。
RTX Pro 6000 MaxQ 实测显示 decode 提速更明显
一名用户报告了更小模型上的可复现实测:Qwen 3.6 2.7B Q8 在 RTX Pro 6000 MaxQ 上从 36 tokens/s 提升到 78 tokens/s。启用 MTP 后,prompt processing 约慢 20%,但生成质量在观察中没有明显变化。这个结果说明 MTP 更适合 decode-heavy workload,例如长答案生成、代码补全与 agent 规划循环。社区仍对优化来源保持谨慎:有评论者询问 turbo3 和 turbo4 是否已经合并,还是这轮速度提升主要来自 MTP PR 本身。
Qwen 3.6 27B 量化测试给出 4-bit 实用下限
另一项社区测试比较了 Qwen 3.6 27B 的 BF16、Q8_0、Q6_K、Q5_K_XL、Q4_K_XL、IQ4_XS 与更低 bit 量化。测试任务要求模型把棋谱 PGN 转成 SVG 棋盘,并处理局面追踪、棋盘朝向、棋子摆放和最后一步高亮。测试使用 llama.cpp,参数包括 temp=0.6、top_p=0.95、top_k=20、presence_penalty=1.0 与 ctx=65536。单次结果显示,BF16 与 Q8_0 基本正确;Q6_K 出现兵位置退化;Q5_K_XL、Q4_K_XL 与 IQ4_XS 仍大体可用;Q3 与 Q2 变体在布局和朝向上失败更多。作者因此把 IQ4_XS 选为 16 GB VRAM RTX 5060 Ti 配置的实际下限。完整输出已发布在 Qwen 3.6 27B 量化对比页面。
TurboQuant 提速与单次 benchmark 的可信度边界
同一测试报告称,原版 llama.cpp 约为 100 pp tps 和 8 tg tps;使用 TheTom 的 TurboQuant fork 后,在 -ngl 99、-ctk turbo4、-ctv turbo2 与低于 75k 上下文条件下提升到约 760 pp tps 和 22 tg tps。社区对结果的主要保留来自方法论:每个量化档位只跑 1 次,随机解码可能制造离群结果。多名评论者建议每档重复多次,再判断质量差距。可提取的稳健结论较窄:4-bit 量化可能仍是本地 27B 模型的平衡点,3-bit 并非完全不可用,但超过约 5-bit 后,收益可能不如直接换更大或更强的基座模型。 Qwen 3.6 MTP 推理加速的意义不在单个跑分,而在本地 LLM 工程的组合路径变清晰:MTP 负责提高生成速度,KV-cache 量化负责压低长上下文显存,GGUF 与修复模板降低接入成本。谨慎看,这些结果仍需要更多硬件、更多任务和多次重复测试验证;但对本地编码 agent 来说,48 GB 级硬件运行 27B 长上下文模型已经从演示更接近可实践方案。
评论 ···