Qwen3.7 Max 跑分超上一版 4.8 分，闭源旗舰逼近技术前沿

阿里巴巴发布闭源旗舰模型 Qwen3.7 Max，在第三方评测机构 Artificial Analysis Intelligence Index 获得 56.6 分，较 2026 年 4 月发布的 Qwen3.6 Max Preview 提升 4.8 分，达到其历史最高水平。

核心跑分集中在科学推理与代码任务

根据 Artificial Analysis 发布的完整评测报告，Qwen3.7 Max 的分数提升主要集中于科学推理、智能体（Agent）能力与编码任务。在 CritPt 基准测试中得分提升 9.7 个百分点（从 3.7% 升至 13.4%），高难度推理基准 HLE 提升 9.2 个百分点（28.9% 至 38.1%），TerminalBench Hard 提升 6.9 个百分点（43.9% 至 50.8%），代码对抗基准 GDPval-AA 亦上升 42 Elo。该模型在基准测试其余分项表现持平。

通过拒答策略降低幻觉率换取综合排名

得分提升中有一项关键策略：模型主动选择“不回答”部分问题。在 AA-Omniscience 基准上，Qwen3.7 Max 的准确率实际下降了 7.6 个百分点（37.7% 降至 30.1%），但幻觉率骤降 21.3 个百分点（44.2% 降至 22.9%），模型尝试作答的比例由 67.3% 降至 48.0%。

由于幻觉率与准确率共同计入 Intelligence Index，减少幻觉成为拉高综合得分的主要贡献之一。在同类第一梯队模型对比中，该模型以保守的作答风格创下最低的幻觉率，展现了在事实一致性任务中的策略性调整。

上下文窗口扩容与 Token 消耗定位

Qwen3.7 Max 的上下文窗口从上一版的 256K 扩展至 1M tokens，延续大模型向更长上下文演进的趋势。不过，模型在 Intelligence Index 评测中消耗了 96.7M 输出 tokens，比 Qwen3.6 Max Preview 的 73.9M 多出约 31%。

在输出端第一梯队模型的 Token Usage 排位中，Qwen3.7 Max 处于中游水平：消耗量高于 GPT-5.5（约 44.5M）与 Gemini 3.1 Pro Preview（57.3M），但低于 Claude Opus 4.7（112M）、Kimi K2.6（166M）以及 DeepSeek V4 Pro（187M）。