智谱正式发布 GLM-5.1-HighSpeed,其速度表现刷新行业预期。据 智谱官方工程博客 披露,该模型采用自研 TileRT 推理引擎进行系统级重构,在 8 块 H200 GPU 环境下输出速度达 400 tokens/s,首次实现旗舰级能力与极低延迟的并行落地,为实时编码 Agent 与语音交互提供算力基座。

GLM-5.1-HighSpeed 速度测试环境截图

系统级架构优化:从算子调度到持久化执行

传统大模型推理框架通常遵循图计算到算子再下发内核的经典执行链路。在训练时代,内核规模足以摊薄内核启动延迟与内存搬运开销。解码阶段的批处理规模缩小至单请求时,注意力内核时间尺度缩减至数十微秒级别,跨内核屏障与同步等待会直接暴露于延迟敏感路径。智谱与 TileRT 团队针对 GLM-5.1 架构特点重写核心推理路径,摒弃传统连续启动短命内核的模式,转向在编译期静态展开的持久化引擎内核。主机层仅执行单次初始化启动,运行时编排逻辑大幅前移至编译阶段,GPU 端转为持续运行的执行管道。

这种持久化执行策略将算子拆解为瓦级任务,交由不同 Warp 组与计算线程阵列并发处理。异步数据搬运、张量计算与通信链路在瓦级粒度上持续交叠,中间结果直接驻留于寄存器、共享内存与二级缓存,彻底避免数据回流全局显存引发的额外延迟。运行时调度不再充当性能瓶颈,系统架构逐渐贴近真实硬件的计算上限。

实测数据:GLM-5.1-HighSpeed 速度为何突破 400 tokens/s

GLM-5.1-HighSpeed 模型参数量为 744B,上下文窗口扩展至 200K,最大输出 Tokens 设定为 128K。在动态批处理、请求合并与 KV Cache 调度优化的支撑下,首令牌延迟被压缩至 1 秒左右。普通批量吞吐可稳定维持在 300 至 400 tokens/s 区间,且该性能指标并非实验室压力测试下的峰值数据,而是经过生产级流量验证的稳定输出。

模型原生支持流式输出、结构化 JSON 响应与多种思考模式,并全面兼容外部 MCP 工具调用接口。长对话场景下的上下文缓存机制可动态优化交互性能,针对代码生成与方案迭代任务,单轮延迟的降低有效避免了多轮调用带来的指数级时间叠加。Agent 集群可在并行人格应答与实时工具调用中保持低延迟连贯性。

异构计算与硬件协同设计

分布式并行推理通常假设所有 GPU 节点执行完全相同的逻辑。随着动态稀疏路由、Top-K 选择与多 Token 预测技术的引入,部分执行阶段高度依赖全局信息同步,强制同质化扩算会引发冗余计算与同步放大。TileRT 将 Warp 专用化策略延伸至硬件层面,构建异构计算节点体系。不同设备根据通信成本与数据依赖关系承担差异化职责。

在 GLM-5.1 的注意力层部署中,GPU 0 专责稀疏索引构建与路由决策,GPU 1 至 7 则并行执行规范化、稀疏注意力计算与全局归约。通信链路不再作为独立外部阶段,而是被直接植入执行管道内部。广播、归约与同步操作在瓦级流水线中持续交叠,系统从串行执行演变为持续并行的计算流水线。

生产落地挑战与时序预算演进

极限压测数据往往难以直接映射至真实业务场景。生产环境中的请求到达模式呈现长短期上下文交织特征,KV Cache 生命周期延长且伴随频繁碎片化迁移。多 Token 预测工作流中的接受与拒绝路径会动态重塑执行流水线,FP8 量化路径与超长上下文任务进一步加剧内存局部性退化与通信放大效应。

智谱团队在多次执行模型重构中,重点并非追求理论峰值算力提升,而是维持流水线在波动流量下的稳定性。通过引入更细粒度的交叠管道与空闲周期压缩策略,尾部延迟得到显著改善。大模型推理系统正从算子优化集合转向真正的 AI 执行基础设施,推理速度逐渐从单纯的系统指标转化为定义模型推理预算的核心变量。

实时 AI 交互的延迟预算收紧,倒逼架构、编译器与底层硬件走向深度协同。GLM-5.1-HighSpeed 的高速落地仅为系统级优化的起点,未来推理管线仍需在分布式调度与显存行为层面持续迭代。

评论 ···