vLLM 登顶 Artificial Analysis 榜单,开源推理栈反超专有栈
DigitalOcean 发布最新推理性能基准测试,vLLM 在 DeepSeek V3.2、MiniMax-M2.5 和 Qwen 3.5 397B 三项任务中均位列第一。该部署实现 230 TPS 的每用户输出吞吐量,超过其余 12 家推理提供商 4 倍以上。底层算子优化已全部合入 vLLM 主线。

DeepSeek V3.2 低并发场景下的算子优化
低并发请求下,DeepSeek V3.2 的瓶颈位于 GPU 内核启动开销。各 Transformer 层曾发出数十个独立内核 — — 包括归一化、旋转嵌入与量化等微秒级操作。vLLM 对计算路径执行激进的算子融合,将分离的内核压缩为两组融合内核,层级内核数量从约 33 个降至 10 个左右。 这一融合改动在 batch size 为 1 时带来 1.28 倍加速。单节点 8×B300 环境下,配合投机解码可达 234 tok/s。启用预填与解码解耦后,速度进一步跃升至 262 tok/s。
此外,新 Router GEMM 内核针对小批量 MoE 路由维度优化,带来额外 6% 加速。稀疏注意力索引器的 TopK 内核使 128K 上下文解码延迟降低 17%。该轮优化同样构成 vLLM 支持 DeepSeek V4 的基础。

MiniMax-M2.5 自定义 EAGLE3 投机解码
MiniMax-M2.5 的优化路径结合了投机解码与针对性算子融合。Inferact 团队使用 TorchSpec 训练了定制 EAGLE3 草稿模型。该框架并行执行 FSDP 草稿训练与基于 vLLM 的目标推理。草稿模型不依赖通用监督数据集,而是直接消耗 vLLM 生成的隐藏状态进行训练,以精确匹配基座模型的词元分布。 同期,vLLM 引入自定义 QK 归一化融合函数,解决 MiniMax-M2.5 非标准注意力归一化问题。该归一化在并行通道内缩减 Q 和 K 方差,随后再应用通道级缩放。在启用标准通道的情况下,结合定制融合,推理栈天花板实验达到 326 tok/s。该数值隔离出纯算子融合对推理栈的贡献。
Qwen 3.5 397B 线性注意力与多流并发优化
Qwen 3.5 采用线性注意力架构,其注意力块中的非标准归一化路径与原 vLLM 融合基础设施不兼容。性能分析表明,错失 allreduce_rms 融合导致解码时间中近一半耗费在未融合的设备间归约上。 vLLM 通过四步工作填补该缺口。修复现有 allreduce_rms 融合通道的识别逻辑,带来 batch 大于 1 时约 5% 的 TPOT 提升。优化 qk-norm 与 rope 路径内核,新增针对线性注意力架构的专用 post-conv 路径融合,并引入双流执行机制以重叠独立计算分支。配合张量并行 8 卡部署,生产环境并发 1 时达到 163 tok/s;并发 256 时请求吞吐量达到 7.33 req/s,较基线提升 10%。
开源默认值重塑推理基础设施
上述针对 DeepSeek V3.2 的 Attention 融合、MiniMax-M2.5 的 EAGLE3 训练配方,以及 Qwen 3.5 的多项定制融合,均已合入 vLLM main 分支或处于 PR 推进阶段。当前运行这些模型的团队可直接获取相同加速收益。 长期以来,最快的推理栈普遍由超大规模云厂商、模型实验室及芯片制造商内部专有构建。开源替代品在可用性上广泛支持,但在生产性能上普遍落后。此次 Artificial Analysis 基准测试结果表明,vLLM 已突破性能天花板。开源社区驱动的内核级优化已具备在商业推理层与闭源栈正面抗衡的能力。
vLLM 此次性能反超的核心不在于引入新算法,而在于将针对前沿模型架构痛点的底层算子优化系统化地开源。这为开发者提供了无需切换闭源引擎即可获取极致吞吐的确定性选择。
评论 ···