Zyphra 发布 AMD 训练模型 ZAYA1-8B

Zyphra 官方发布 ZAYA1-8B，这是在 AMD Instinct MI300 栈上完成预训练、中期训练与监督微调的 MoE 模型。ZAYA1-8B 的活跃参数少于 10 亿，官方称其在数学、代码与复杂推理任务上超过部分更大开源权重模型。Zyphra 还公布了 Markovian RSA 测试时计算方法，在 HMMT'25 上取得 89.6 分，高于 Claude 4.5 Sonnet 的 88.3 分。

ZAYA1-8B 在 AMD 栈上完成训练

根据 Zyphra 官方发布文章，ZAYA1-8B 是首个在 AMD Instinct MI300 栈上完成预训练、中期训练与监督微调的 MoE 模型。训练集群使用 1024 个 MI300x 节点，并采用 AMD Pensando Pollara 互连，集群由 Zyphra 与 IBM 定制搭建。ZAYA1-8B 今日已作为 serverless endpoint 登陆 Zyphra Cloud，模型权重以 Apache-2.0 许可证发布。Zyphra 将模型定位为高智能密度模型，即尽量提升每个活跃参数与每单位 FLOP 能产出的能力。 ZAYA1-8B 与大模型数学代码对比图

ZAYA1-8B benchmark 显示小模型密度优势

ZAYA1-8B 的活跃参数少于 10 亿，但官方称它在部分数学与代码 benchmark 上匹配或超过多倍于自身规模的模型，包括 Mistral-Small-4-119B。Zyphra 还将它与 DeepSeek-R1-0528、Gemini-2.5-Pro、Claude 4.5 Sonnet 等第一代前沿推理模型对比，并称其在 AIME、HMMT、LiveCodeBench、GPQA-Diamond、IFEval 与 IFBench 等任务上保持竞争力。在 Markovian RSA 配置下，ZAYA1-8B 在 HMMT'25 上达到 89.6，高于 Claude 4.5 Sonnet 的 88.3，也超过 GPT-5-High。Zyphra 还称，使用 extra-high test-time compute 后，ZAYA1-8B 在 APEX-shortlist 数学 benchmark 上超过 DeepSeek-V3.2 与 GPT-OSS 120B high。 ZAYA1-8B 多项评测结果对比图

ZAYA1-8B 架构采用 CCA 与 MLP 路由器

ZAYA1-8B 的效率来自架构、预训练方法与强化学习流水线的共同设计。Zyphra 提到 3 个关键架构变化：Compressed Convolutional Attention（CCA）、用于专家选择的 MLP-based router，以及 learned residual scaling。CCA 是 Zyphra 开发的注意力变体，目标是降低注意力计算成本并提升性能。MLP-based router 用于替代线性路由器，官方称它能改善专家路由稳定性。learned residual scaling 用很小的参数与 FLOP 成本控制深层网络中的 residual norm 增长。Zyphra 的判断是，这些设计共同支撑了 ZAYA1-8B 的智能密度。 ZAYA1-8B CCA 与路由器架构示意图

ZAYA1-8B 后训练与 Markovian RSA 方法

Zyphra 将后训练流程分为 5 个阶段。第一阶段用 SFT 覆盖基础聊天、指令跟随、代码、数学与测试时计算能力；第二阶段用数学、逻辑与谜题任务做推理 warmup，并训练模型自聚合候选答案；第三阶段进入 RLVE-Gym，用动态调整难度的谜题训练核心推理回路；第四阶段用大规模数学与代码 RL 提升知识与推理能力；第五阶段用较轻量的 RLHF/RLAIF 改善聊天行为、指令跟随与写作风格。Markovian RSA 是本次发布的另一个重点。它并行生成多条推理轨迹，从轨迹尾部抽取固定长度片段，再采样候选引用生成下一轮聚合 prompt。Zyphra 称，在 40k token 中间 chain-of-thought 预算下，只把最后 4K token 传入下一轮迭代，就能让上下文长度保持有界。官方还测试了 每题 550 万 token 的 extra-high-TTC 配置，并观察到数学任务继续增益。 ZAYA1-8B 强化学习阶段能力提升图

Markovian RSA 体现模型与 harness 共设计

Zyphra 强调，ZAYA1-8B 从 SFT 阶段开始学习 Markovian RSA 的聚合 prompt 与分块方法，RL 阶段也在一部分 prompt 上训练这种自聚合行为。官方称，同样方法用于 Qwen3-4B-Thinking-2507 时，性能提升明显更小。这一结果支持一个工程判断：测试时计算不是只靠外部 harness 堆采样次数，模型本身也需要在后训练阶段理解聚合协议与分块推理格式。对开发者而言，ZAYA1-8B 的意义不只在 8B 级模型本身，也在于它展示了小活跃参数 MoE、专用后训练流程与推理 harness 联合优化的路线。 Markovian RSA 并行聚合流程示意图