Zyphra 发布 AMD 训练模型 ZAYA1-8B
Zyphra 官方发布 ZAYA1-8B,这是在 AMD Instinct MI300 栈上完成预训练、中期训练与监督微调的 MoE 模型。ZAYA1-8B 的活跃参数少于 10 亿,官方称其在数学、代码与复杂推理任务上超过部分更大开源权重模型。Zyphra 还公布了 Markovian RSA 测试时计算方法,在 HMMT'25 上取得 89.6 分,高于 Claude 4.5 Sonnet 的 88.3 分。

ZAYA1-8B 在 AMD 栈上完成训练
根据 Zyphra 官方发布文章,ZAYA1-8B 是首个在 AMD Instinct MI300 栈上完成预训练、中期训练与监督微调的 MoE 模型。训练集群使用 1024 个 MI300x 节点,并采用 AMD Pensando Pollara 互连,集群由 Zyphra 与 IBM 定制搭建。ZAYA1-8B 今日已作为 serverless endpoint 登陆 Zyphra Cloud,模型权重以 Apache-2.0 许可证发布。Zyphra 将模型定位为高智能密度模型,即尽量提升每个活跃参数与每单位 FLOP 能产出的能力。
ZAYA1-8B benchmark 显示小模型密度优势
ZAYA1-8B 的活跃参数少于 10 亿,但官方称它在部分数学与代码 benchmark 上匹配或超过多倍于自身规模的模型,包括 Mistral-Small-4-119B。Zyphra 还将它与 DeepSeek-R1-0528、Gemini-2.5-Pro、Claude 4.5 Sonnet 等第一代前沿推理模型对比,并称其在 AIME、HMMT、LiveCodeBench、GPQA-Diamond、IFEval 与 IFBench 等任务上保持竞争力。在 Markovian RSA 配置下,ZAYA1-8B 在 HMMT'25 上达到 89.6,高于 Claude 4.5 Sonnet 的 88.3,也超过 GPT-5-High。Zyphra 还称,使用 extra-high test-time compute 后,ZAYA1-8B 在 APEX-shortlist 数学 benchmark 上超过 DeepSeek-V3.2 与 GPT-OSS 120B high。
ZAYA1-8B 架构采用 CCA 与 MLP 路由器
ZAYA1-8B 的效率来自架构、预训练方法与强化学习流水线的共同设计。Zyphra 提到 3 个关键架构变化:Compressed Convolutional Attention(CCA)、用于专家选择的 MLP-based router,以及 learned residual scaling。CCA 是 Zyphra 开发的注意力变体,目标是降低注意力计算成本并提升性能。MLP-based router 用于替代线性路由器,官方称它能改善专家路由稳定性。learned residual scaling 用很小的参数与 FLOP 成本控制深层网络中的 residual norm 增长。Zyphra 的判断是,这些设计共同支撑了 ZAYA1-8B 的智能密度。
ZAYA1-8B 后训练与 Markovian RSA 方法
Zyphra 将后训练流程分为 5 个阶段。第一阶段用 SFT 覆盖基础聊天、指令跟随、代码、数学与测试时计算能力;第二阶段用数学、逻辑与谜题任务做推理 warmup,并训练模型自聚合候选答案;第三阶段进入 RLVE-Gym,用动态调整难度的谜题训练核心推理回路;第四阶段用大规模数学与代码 RL 提升知识与推理能力;第五阶段用较轻量的 RLHF/RLAIF 改善聊天行为、指令跟随与写作风格。Markovian RSA 是本次发布的另一个重点。它并行生成多条推理轨迹,从轨迹尾部抽取固定长度片段,再采样候选引用生成下一轮聚合 prompt。Zyphra 称,在 40k token 中间 chain-of-thought 预算下,只把最后 4K token 传入下一轮迭代,就能让上下文长度保持有界。官方还测试了 每题 550 万 token 的 extra-high-TTC 配置,并观察到数学任务继续增益。
Markovian RSA 体现模型与 harness 共设计
Zyphra 强调,ZAYA1-8B 从 SFT 阶段开始学习 Markovian RSA 的聚合 prompt 与分块方法,RL 阶段也在一部分 prompt 上训练这种自聚合行为。官方称,同样方法用于 Qwen3-4B-Thinking-2507 时,性能提升明显更小。这一结果支持一个工程判断:测试时计算不是只靠外部 harness 堆采样次数,模型本身也需要在后训练阶段理解聚合协议与分块推理格式。对开发者而言,ZAYA1-8B 的意义不只在 8B 级模型本身,也在于它展示了小活跃参数 MoE、专用后训练流程与推理 harness 联合优化的路线。
ZAYA1-8B 的发布说明,前沿推理能力的竞争正在从单纯扩大总参数量,转向活跃参数、训练硬件、后训练数据与测试时计算的组合优化。这个判断仍需更多第三方复现实测验证,但 Zyphra 给出的数字已经让 AMD 训练栈和小型 MoE 推理模型获得了新的关注点。
评论 ···