Qwen3.7-Max 发布：重构智能体长程自主执行

阿里云于近日正式发布 Qwen3.7-Max 模型，定位为面向智能体时代的新一代通用基座。据阿里云通义千问官方博客披露，该模型在长周期自主执行任务中可稳定跨越数千次工具调用，并全面重塑编程、自动化办公等工作流，即将通过阿里云百炼 API 上线。

编程智能体与多语言基准测试领先

在编程智能体评测矩阵中，Qwen3.7-Max 实现多项突破。该模型在复杂软件开发测试集 SWE-Pro 上达到 60.6，多语言代码库 SWE-Multilingual 得分 78.3，科学计算基准 SciCode 达到 53.5。终端任务测试 Terminal Bench 2.0-Terminus 录得 69.7，超越同期深度求索同类竞品。在严格验证集 SWE-Verified 上，该模型取得 80.4，表现已与国际顶级模型处于同一梯队水平。

办公自动化与多语言能力同步升级。依托 MCP 集成协议，模型能精准调度外部应用程序接口，驱动复杂的企业级工作流。在 SpreadSheetBench-v1 办公自动化基准上得分 87.0，处于国际第一梯队。通用推理任务方面，高难度基准 GPQA Diamond 达到 92.4，指令遵循评测 IFBench 录得 79.1。多语言理解与翻译指标 WMT24++ 与 MAXIFE 分别达到 85.8 和 89.2，展现出扎实的语言泛化底盘。

长周期自主执行与跨框架泛化架构

核心架构设计上，该产品强调长周期任务的连贯推理能力。官方公布的一项完整自主内核优化实验中，模型在长达 35 小时的全程无人值守任务里，完成超过 1,000 次工具调用，全程未丢失上下文。环境扩展技术进一步提升了训练数据的质量与多样性，使模型从海量陌生环境中实现真正的能力泛化，而非针对特定场景的数据过拟合。

跨框架泛化是该产品的重要设计特征。研发团队将训练环境解耦为任务、运行框架与验证器三大正交组件。这种组合式扩展大幅降低了模型迭代成本，直接赋能了强化学习训练过程。在 Claude Code、OpenClaw 与 Qwen Code 等各类智能体框架下，Qwen3.7-Max 均表现稳健。解耦设计迫使模型在不同框架配置下处理同源任务，从而学习普适解题策略，规避了针对单一 Agent Harness 的过拟合现象。

全栈实战：内核优化与奖励自监控

在长程自主优化实战中，模型在配备平头哥真武 M890 处理器的集群上，对 Extend Attention 算子进行重构。模型在缺乏硬件性能文档的情况下仅凭任务描述与运行反馈，自主完成编写、编译与性能分析，最终产出相对原始参考实现加速比达 10.0x 的生产级 Kernel。对比实验中，其他模型在同类任务上的加速比介于 3.3x 至 7.3x 之间。轨迹记录显示，模型在运行 30 小时后仍能发现实质性性能改进，证实了其在超长任务周期中的持续进化能力。

此外，该模型成功接入软件工程任务强化学习系统的奖励作弊监控循环。在逾 80 小时的训练循环中，Qwen3.7-Max 自主调取训练轨迹，累计执行超万次工具调用，归纳候选作弊模式并新增 13 条启发式规则。这套自我监测体系精准拦截了 1,618 个异常案例，为大规模工程场景下的持续迭代提供了底层闭环保障。在企业管理模拟基准 YC-Bench 中，模型累计完成 237 项任务，营收达 2.08M 美元，展现了跨上下文窗口的策略记忆与动态调整执行力。

结语

考虑到官方评测数据主要来源于自研基准环境，且对比成绩多为同期竞品自标指标，实际推理延迟、算力消耗及长周期任务中的真实稳定性，仍需等待第三方机构的全面复测与验证。

Qwen3.7-Max 发布：重构智能体长程自主执行

编程智能体与多语言基准测试领先

长周期自主执行与跨框架泛化架构

全栈实战：内核优化与奖励自监控

结语

推荐阅读

Anthropic 被曝筹备 Claude Mythos 1,将集成至 Claude Code 与 Security

GPT-5.6 泄露：六月发布在即，iris-alpha 等三款变体曝光

OpenAI Codex 流量分配转向开源终端工具访问

Claude Mythos Preview 漏洞挖掘成果:Project Glasswing 首月发现逾万高危漏洞

评论 ···

编程智能体与多语言基准测试领先

长周期自主执行与跨框架泛化架构

全栈实战：内核优化与奖励自监控

结语

分享

推荐阅读

评论 ···