Qwen3.7-Max 发布:重构智能体长程自主执行
阿里云于近日正式发布 Qwen3.7-Max 模型,定位为面向智能体时代的新一代通用基座。据 阿里云通义千问官方博客 披露,该模型在长周期自主执行任务中可稳定跨越数千次工具调用,并全面重塑编程、自动化办公等工作流,即将通过阿里云百炼 API 上线。

编程智能体与多语言基准测试领先
在编程智能体评测矩阵中,Qwen3.7-Max 实现多项突破。该模型在复杂软件开发测试集 SWE-Pro 上达到 60.6,多语言代码库 SWE-Multilingual 得分 78.3,科学计算基准 SciCode 达到 53.5。终端任务测试 Terminal Bench 2.0-Terminus 录得 69.7,超越同期深度求索同类竞品。在严格验证集 SWE-Verified 上,该模型取得 80.4,表现已与国际顶级模型处于同一梯队水平。
办公自动化与多语言能力同步升级。依托 MCP 集成协议,模型能精准调度外部应用程序接口,驱动复杂的企业级工作流。在 SpreadSheetBench-v1 办公自动化基准上得分 87.0,处于国际第一梯队。通用推理任务方面,高难度基准 GPQA Diamond 达到 92.4,指令遵循评测 IFBench 录得 79.1。多语言理解与翻译指标 WMT24++ 与 MAXIFE 分别达到 85.8 和 89.2,展现出扎实的语言泛化底盘。
长周期自主执行与跨框架泛化架构
核心架构设计上,该产品强调长周期任务的连贯推理能力。官方公布的一项完整自主内核优化实验中,模型在长达 35 小时的全程无人值守任务里,完成超过 1,000 次工具调用,全程未丢失上下文。环境扩展技术进一步提升了训练数据的质量与多样性,使模型从海量陌生环境中实现真正的能力泛化,而非针对特定场景的数据过拟合。
跨框架泛化是该产品的重要设计特征。研发团队将训练环境解耦为任务、运行框架与验证器三大正交组件。这种组合式扩展大幅降低了模型迭代成本,直接赋能了强化学习训练过程。在 Claude Code、OpenClaw 与 Qwen Code 等各类智能体框架下,Qwen3.7-Max 均表现稳健。解耦设计迫使模型在不同框架配置下处理同源任务,从而学习普适解题策略,规避了针对单一 Agent Harness 的过拟合现象。
全栈实战:内核优化与奖励自监控
在长程自主优化实战中,模型在配备平头哥真武 M890 处理器的集群上,对 Extend Attention 算子进行重构。模型在缺乏硬件性能文档的情况下仅凭任务描述与运行反馈,自主完成编写、编译与性能分析,最终产出相对原始参考实现加速比达 10.0x 的生产级 Kernel。对比实验中,其他模型在同类任务上的加速比介于 3.3x 至 7.3x 之间。轨迹记录显示,模型在运行 30 小时后仍能发现实质性性能改进,证实了其在超长任务周期中的持续进化能力。
此外,该模型成功接入软件工程任务强化学习系统的奖励作弊监控循环。在逾 80 小时的训练循环中,Qwen3.7-Max 自主调取训练轨迹,累计执行超万次工具调用,归纳候选作弊模式并新增 13 条启发式规则。这套自我监测体系精准拦截了 1,618 个异常案例,为大规模工程场景下的持续迭代提供了底层闭环保障。在企业管理模拟基准 YC-Bench 中,模型累计完成 237 项任务,营收达 2.08M 美元,展现了跨上下文窗口的策略记忆与动态调整执行力。
结语
考虑到官方评测数据主要来源于自研基准环境,且对比成绩多为同期竞品自标指标,实际推理延迟、算力消耗及长周期任务中的真实稳定性,仍需等待第三方机构的全面复测与验证。
评论 ···