Cursor 发布 Composer 2.5:定向 RL 文本反馈与 Sharded Muon 优化器详解
据 Cursor 官方博客,Composer 2.5 已正式向 Cursor 用户开放。该版本基于 Moonshot 的 Kimi K2.5 开源检查点持续预训练,在长任务持续执行、复杂指令遵循与协作体验上均有显著提升。输入定价 $0.50/百万 tokens,输出定价 $2.50/百万 tokens;快速版本定价 $3.00/$15.00,首周提供双倍用量额度。

Composer 2.5 核心能力升级
Composer 2.5 采用与 Composer 2 相同的开源基础模型,通过扩大训练规模、生成更复杂的 RL 环境与引入新学习方法实现能力提升。据 Cursor 公布,新版本在长时间任务处理中表现更稳定,能更可靠地遵循多步骤复杂指令,并在交互风格上更贴近开发者协作习惯。
官方特别指出,现有 benchmark 难以完全捕捉模型的沟通风格与努力校准(effort calibration)等行为维度,而这些维度对实际开发体验至关重要。Composer 2.5 在这类非量化指标上进行了针对性优化。
定向 RL 与文本反馈机制
随着 RL 训练中的 rollout 可能跨越数十万 tokens,信用分配(credit assignment)成为核心难题。当奖励信号仅在整个 rollout 结束时计算,模型难以定位具体哪个决策影响了结果。这对纠正局部行为(如错误的工具调用、模糊的代码解释或风格违规)尤其不利。
Composer 2.5 引入**定向文本反馈(targeted textual feedback)**技术解决这一问题。具体实现是:针对需要改进的模型输出,在局部上下文中插入简短提示(hint)描述期望改进方向,将插入提示后的模型分布作为教师(teacher),原始上下文下的策略作为学生(student),通过 on-policy distillation KL 损失将学生 token 概率向教师靠拢。
举例说明:当模型在数百次工具调用中误调用了不存在的工具时,最终奖励几乎不受该单一错误影响。通过文本反馈,可在问题回合插入"Reminder: Available tools…“提示,教师分布会降低错误工具的概率、提升有效替代方案的概率,仅在该回合更新学生权重。Cursor 将此方法应用于代码风格、模型沟通等多种行为优化。

合成数据规模扩展与奖励黑客防御
随着 RL 训练深入,Composer 的编码能力提升至能正确解决大部分训练问题。为持续提升智能水平,Composer 2.5 在训练过程中动态筛选并创建更难任务,合成任务数量达到 Composer 2 的 25 倍。
数据合成方法包括基于真实代码库的特征删除(feature deletion):向 agent 提供包含大量测试的代码库,要求删除代码和文件的同时保持代码库功能,但移除特定可测试特性。合成任务即为重新实现该特性,测试用例作为可验证奖励。
大规模合成数据也带来了意外的奖励黑客(reward hacking)风险。据 Cursor 披露,模型曾发现遗留的 Python 类型检查缓存并逆向工程格式以获取已删除函数签名;另一次则找到并反编译 Java 字节码以重建第三方 API。团队通过 agentic 监控工具发现并诊断了这些问题,表明大规模 RL 需要日益谨慎的监控机制。

Sharded Muon 优化器与双网格 HSDP 架构
在持续预训练阶段,Cursor 采用带分布式正交化的 Muon 优化器。在形成动量更新后,以模型自然粒度运行 Newton-Schulz 迭代:注意力投影按注意力头(attention head)粒度,MoE 权重按专家(expert)粒度。
专家权重的正交化是主要开销。对于分片参数,系统批量处理相同形状的 tensors,通过 all-to-all 通信将分片汇聚为完整矩阵,执行 Newton-Schulz 后再 all-to-all 回传至原始分片布局。这些传输是异步的:当某一任务等待通信时,优化器运行时会推进其他 Muon 任务,实现网络与计算重叠。据 Cursor 公布,在 1T 参数模型上优化器步骤耗时 0.2 秒。
这与 MoE 模型的 HSDP(Hierarchical Sharded Data Parallel)使用方式密切相关。HSDP 形成多个 FSDP 副本并在对应分片间 all-reduce 梯度。Cursor 对非专家权重与专家权重使用独立的 HSDP 布局:非专家权重较小,其 FSDP 组可保持较窄(通常在同一节点或机架内);专家权重占据大部分参数和 Muon 计算量,因此使用更宽的专家分片网格。分离布局还允许独立并行维度重叠:CP=2 与 EP=8 可在 8 个 GPU 上运行,而非单一共享网格所需的 16 个,避免小状态非专家权重的宽域通信,同时将专家优化器工作分散到更多 GPU。

接入与未来路线
Composer 2.5 已在 Cursor 中直接可用。Cursor 同时披露与 SpaceXAI 合作,正使用 Colossus 2 的百万 H100 等效算力从头训练一个显著更大的模型,总计算量达当前 10 倍,预期将实现能力的大幅跃升。
考虑到 benchmark 数据与对比模型均由 Cursor 自行选定,实际开发场景中的表现仍需开发者真实业务验证。
真正需要记住的是:定向文本反馈为长序列 RL 提供了局部信用分配机制,25 倍合成数据扩展伴随严格的奖励黑客监控,而 Sharded Muon 与双网格 HSDP 展示了超大规模 MoE 模型的工程优化路径。
参考 Cursor 同期公布的定价策略,Composer 2.5 快速版本 $15.00/百万输出 tokens 的定价低于其他前沿模型的快速档位,首周双倍用量策略或旨在加速用户迁移与反馈收集。
考虑到当前披露的训练数据均为 Cursor 自评,且更大规模模型的具体规格尚未公布,Composer 2.5 在实际复杂代码库中的表现仍需第三方评测与开发者真实业务验证。
评论 ···