Qwen 3.6 MTP 推理加速 2.5 倍

llama.cpp 的 PR 22673 为 Qwen 3.6 加入 MTP speculative decoding 支持，让 Qwen 3.6 MTP 推理加速成为本地编码 agent 场景的新选项。作者在 M2 Max 96 GB 上报告约 2.5 倍生成提速，速度达到 28 tok/s，并称 48 GB 级 Mac 或显存系统可承载最高 262144 tokens 上下文。

Qwen 3.6 MTP 推理加速来自内置预测头

llama.cpp PR 22673 新增了对 Qwen 3.6 27B MTP 的支持。MTP 指 multi-token prediction，利用模型内置的多 token 预测头做 speculative decoding。作者发布了包含 MTP tensors 的 Qwen 3.6 27B MTP GGUF 权重，并给出核心启动组合：--spec-type mtp、--spec-draft-n-max 5、q4_0 或 q8_0 KV-cache 量化。报告中的本地配置在 M2 Max 96 GB 上达到 28 tok/s，约为未启用 MTP 时的 2.5 倍。这一数字对本地编码 agent 重要，因为 decode 阶段常决定长任务的交互延迟。

262144 tokens 上下文与 48 GB 本地硬件门槛

作者称，该方案可在 48 GB 级 Mac 或 VRAM-class 系统上运行长上下文，最高配置到 262144 tokens。这使 Qwen 3.6 27B 更接近本地 agentic coding 的可用门槛，尤其适合需要读取大型代码仓库、长日志与多轮工具调用历史的任务。限制同样明确：当前 MTP 支持需要从 PR 分支自行编译 llama.cpp；q4_0 KV-cache 会带来一定质量损失；视觉输入在搭配 MTP 时会导致 llama.cpp 崩溃。作者还上传了非 vLLM 专用的 Qwen 修复版 Jinja chat templates，用于改善本地 OpenAI 与 Anthropic 兼容端点的接入。

RTX Pro 6000 MaxQ 实测显示 decode 提速更明显

一名用户报告了更小模型上的可复现实测：Qwen 3.6 2.7B Q8 在 RTX Pro 6000 MaxQ 上从 36 tokens/s 提升到 78 tokens/s。启用 MTP 后，prompt processing 约慢 20%，但生成质量在观察中没有明显变化。这个结果说明 MTP 更适合 decode-heavy workload，例如长答案生成、代码补全与 agent 规划循环。社区仍对优化来源保持谨慎：有评论者询问 turbo3 和 turbo4 是否已经合并，还是这轮速度提升主要来自 MTP PR 本身。

Qwen 3.6 27B 量化测试给出 4-bit 实用下限

另一项社区测试比较了 Qwen 3.6 27B 的 BF16、Q8_0、Q6_K、Q5_K_XL、Q4_K_XL、IQ4_XS 与更低 bit 量化。测试任务要求模型把棋谱 PGN 转成 SVG 棋盘，并处理局面追踪、棋盘朝向、棋子摆放和最后一步高亮。测试使用 llama.cpp，参数包括 temp=0.6、top_p=0.95、top_k=20、presence_penalty=1.0 与 ctx=65536。单次结果显示，BF16 与 Q8_0 基本正确；Q6_K 出现兵位置退化；Q5_K_XL、Q4_K_XL 与 IQ4_XS 仍大体可用；Q3 与 Q2 变体在布局和朝向上失败更多。作者因此把 IQ4_XS 选为 16 GB VRAM RTX 5060 Ti 配置的实际下限。完整输出已发布在 Qwen 3.6 27B 量化对比页面。

TurboQuant 提速与单次 benchmark 的可信度边界

同一测试报告称，原版 llama.cpp 约为 100 pp tps 和 8 tg tps；使用 TheTom 的 TurboQuant fork 后，在 -ngl 99、-ctk turbo4、-ctv turbo2 与低于 75k 上下文条件下提升到约 760 pp tps 和 22 tg tps。社区对结果的主要保留来自方法论：每个量化档位只跑 1 次，随机解码可能制造离群结果。多名评论者建议每档重复多次，再判断质量差距。可提取的稳健结论较窄：4-bit 量化可能仍是本地 27B 模型的平衡点，3-bit 并非完全不可用，但超过约 5-bit 后，收益可能不如直接换更大或更强的基座模型。 Qwen 3.6 MTP 推理加速的意义不在单个跑分，而在本地 LLM 工程的组合路径变清晰：MTP 负责提高生成速度，KV-cache 量化负责压低长上下文显存，GGUF 与修复模板降低接入成本。谨慎看，这些结果仍需要更多硬件、更多任务和多次重复测试验证；但对本地编码 agent 来说，48 GB 级硬件运行 27B 长上下文模型已经从演示更接近可实践方案。

Qwen 3.6 MTP 推理加速 2.5 倍

Qwen 3.6 MTP 推理加速来自内置预测头

262144 tokens 上下文与 48 GB 本地硬件门槛

RTX Pro 6000 MaxQ 实测显示 decode 提速更明显

Qwen 3.6 27B 量化测试给出 4-bit 实用下限

TurboQuant 提速与单次 benchmark 的可信度边界

推荐阅读

CodeGraph 代码图谱发布：用本地索引降低 AI Agent 检索成本

Codex 速率限制问题已修复，所有账户额度已重置

Google 宣布 Gemini CLI 关停，6 月 18 日整合至 Antigravity CLI

ChatGPT PowerPoint 集成上线，支持直接创建编辑演示文稿

评论 ···

Qwen 3.6 MTP 推理加速来自内置预测头

262144 tokens 上下文与 48 GB 本地硬件门槛

RTX Pro 6000 MaxQ 实测显示 decode 提速更明显

Qwen 3.6 27B 量化测试给出 4-bit 实用下限

TurboQuant 提速与单次 benchmark 的可信度边界

分享

推荐阅读

评论 ···