阿里巴巴发布闭源旗舰模型 Qwen3.7 Max,在第三方评测机构 Artificial Analysis Intelligence Index 获得 56.6 分,较 2026 年 4 月发布的 Qwen3.6 Max Preview 提升 4.8 分,达到其历史最高水平。

Qwen3.7 Max 跑分第三方对比图

核心跑分集中在科学推理与代码任务

根据 Artificial Analysis 发布的完整评测报告,Qwen3.7 Max 的分数提升主要集中于科学推理、智能体(Agent)能力与编码任务。在 CritPt 基准测试中得分提升 9.7 个百分点(从 3.7% 升至 13.4%),高难度推理基准 HLE 提升 9.2 个百分点(28.9% 至 38.1%),TerminalBench Hard 提升 6.9 个百分点(43.9% 至 50.8%),代码对抗基准 GDPval-AA 亦上升 42 Elo。该模型在基准测试其余分项表现持平。

通过拒答策略降低幻觉率换取综合排名

得分提升中有一项关键策略:模型主动选择“不回答”部分问题。在 AA-Omniscience 基准上,Qwen3.7 Max 的准确率实际下降了 7.6 个百分点(37.7% 降至 30.1%),但幻觉率骤降 21.3 个百分点(44.2% 降至 22.9%),模型尝试作答的比例由 67.3% 降至 48.0%。

由于幻觉率与准确率共同计入 Intelligence Index,减少幻觉成为拉高综合得分的主要贡献之一。在同类第一梯队模型对比中,该模型以保守的作答风格创下最低的幻觉率,展现了在事实一致性任务中的策略性调整。

上下文窗口扩容与 Token 消耗定位

Qwen3.7 Max 的上下文窗口从上一版的 256K 扩展至 1M tokens,延续大模型向更长上下文演进的趋势。不过,模型在 Intelligence Index 评测中消耗了 96.7M 输出 tokens,比 Qwen3.6 Max Preview 的 73.9M 多出约 31%。

在输出端第一梯队模型的 Token Usage 排位中,Qwen3.7 Max 处于中游水平:消耗量高于 GPT-5.5(约 44.5M)与 Gemini 3.1 Pro Preview(57.3M),但低于 Claude Opus 4.7(112M)、Kimi K2.6(166M)以及 DeepSeek V4 Pro(187M)。

Qwen3.7 Max 开源与闭源版本路线图

闭源旗舰延续与开源基线

该模型仅支持文本输入与输出,采用专有闭源权重发布。此举延续了阿里巴巴自 2025 年 1 月 Qwen2.5 Max 以来确定的产品矩阵节奏:Max 与 Plus 版本保持闭源交付,其余 Qwen 系列则继续维护开源权重。

目前 Intelligence Index 排名最高的开源模型为同年 4 月发布的 Qwen3.6 27B(Reasoning 版,得分 45.8),排名第一的开源混合专家(MoE)模型则是 2026 年 2 月的 Qwen3.5 397B A17B(Reasoning 版,得分 45.0)。

官方尚未公布新模型的 API 定价。参考上一版闭源模型在阿里云官方 API 的定价为每百万输入 token 1.30 美元、输出 token 7.80 美元,市场预期 Qwen3.7 Max 将沿用该价格带或做微调。

通过拉长上下文窗口并引入更激进的保守作答机制,Qwen3.7 Max 在综合性评测中缩小了与技术最先进模型的差距。后续独立验证将集中在开放生态中的实际部署表现与定价策略落地情况。

评论 ···