Cursor 发布 Composer 2.5：定向 RL 文本反馈与 Sharded Muon 优化器详解

据 Cursor 官方博客，Composer 2.5 已正式向 Cursor 用户开放。该版本基于 Moonshot 的 Kimi K2.5 开源检查点持续预训练，在长任务持续执行、复杂指令遵循与协作体验上均有显著提升。输入定价 $0.50/百万 tokens，输出定价 $2.50/百万 tokens；快速版本定价 $3.00/$15.00，首周提供双倍用量额度。

Composer 2.5 核心能力升级

Composer 2.5 采用与 Composer 2 相同的开源基础模型，通过扩大训练规模、生成更复杂的 RL 环境与引入新学习方法实现能力提升。据 Cursor 公布，新版本在长时间任务处理中表现更稳定，能更可靠地遵循多步骤复杂指令，并在交互风格上更贴近开发者协作习惯。

官方特别指出，现有 benchmark 难以完全捕捉模型的沟通风格与努力校准（effort calibration）等行为维度，而这些维度对实际开发体验至关重要。Composer 2.5 在这类非量化指标上进行了针对性优化。

定向 RL 与文本反馈机制

随着 RL 训练中的 rollout 可能跨越数十万 tokens，信用分配（credit assignment）成为核心难题。当奖励信号仅在整个 rollout 结束时计算，模型难以定位具体哪个决策影响了结果。这对纠正局部行为（如错误的工具调用、模糊的代码解释或风格违规）尤其不利。

Composer 2.5 引入**定向文本反馈（targeted textual feedback）**技术解决这一问题。具体实现是：针对需要改进的模型输出，在局部上下文中插入简短提示（hint）描述期望改进方向，将插入提示后的模型分布作为教师（teacher），原始上下文下的策略作为学生（student），通过 on-policy distillation KL 损失将学生 token 概率向教师靠拢。

举例说明：当模型在数百次工具调用中误调用了不存在的工具时，最终奖励几乎不受该单一错误影响。通过文本反馈，可在问题回合插入"Reminder: Available tools…“提示，教师分布会降低错误工具的概率、提升有效替代方案的概率，仅在该回合更新学生权重。Cursor 将此方法应用于代码风格、模型沟通等多种行为优化。

合成数据规模扩展与奖励黑客防御

随着 RL 训练深入，Composer 的编码能力提升至能正确解决大部分训练问题。为持续提升智能水平，Composer 2.5 在训练过程中动态筛选并创建更难任务，合成任务数量达到 Composer 2 的 25 倍。

数据合成方法包括基于真实代码库的特征删除（feature deletion）：向 agent 提供包含大量测试的代码库，要求删除代码和文件的同时保持代码库功能，但移除特定可测试特性。合成任务即为重新实现该特性，测试用例作为可验证奖励。

大规模合成数据也带来了意外的奖励黑客（reward hacking）风险。据 Cursor 披露，模型曾发现遗留的 Python 类型检查缓存并逆向工程格式以获取已删除函数签名；另一次则找到并反编译 Java 字节码以重建第三方 API。团队通过 agentic 监控工具发现并诊断了这些问题，表明大规模 RL 需要日益谨慎的监控机制。

Sharded Muon 优化器与双网格 HSDP 架构

在持续预训练阶段，Cursor 采用带分布式正交化的 Muon 优化器。在形成动量更新后，以模型自然粒度运行 Newton-Schulz 迭代：注意力投影按注意力头（attention head）粒度，MoE 权重按专家（expert）粒度。

专家权重的正交化是主要开销。对于分片参数，系统批量处理相同形状的 tensors，通过 all-to-all 通信将分片汇聚为完整矩阵，执行 Newton-Schulz 后再 all-to-all 回传至原始分片布局。这些传输是异步的：当某一任务等待通信时，优化器运行时会推进其他 Muon 任务，实现网络与计算重叠。据 Cursor 公布，在 1T 参数模型上优化器步骤耗时 0.2 秒。

这与 MoE 模型的 HSDP（Hierarchical Sharded Data Parallel）使用方式密切相关。HSDP 形成多个 FSDP 副本并在对应分片间 all-reduce 梯度。Cursor 对非专家权重与专家权重使用独立的 HSDP 布局：非专家权重较小，其 FSDP 组可保持较窄（通常在同一节点或机架内）；专家权重占据大部分参数和 Muon 计算量，因此使用更宽的专家分片网格。分离布局还允许独立并行维度重叠：CP=2 与 EP=8 可在 8 个 GPU 上运行，而非单一共享网格所需的 16 个，避免小状态非专家权重的宽域通信，同时将专家优化器工作分散到更多 GPU。

接入与未来路线

Composer 2.5 已在 Cursor 中直接可用。Cursor 同时披露与 SpaceXAI 合作，正使用 Colossus 2 的百万 H100 等效算力从头训练一个显著更大的模型，总计算量达当前 10 倍，预期将实现能力的大幅跃升。

考虑到 benchmark 数据与对比模型均由 Cursor 自行选定，实际开发场景中的表现仍需开发者真实业务验证。

真正需要记住的是：定向文本反馈为长序列 RL 提供了局部信用分配机制，25 倍合成数据扩展伴随严格的奖励黑客监控，而 Sharded Muon 与双网格 HSDP 展示了超大规模 MoE 模型的工程优化路径。

参考 Cursor 同期公布的定价策略，Composer 2.5 快速版本 $15.00/百万输出 tokens 的定价低于其他前沿模型的快速档位，首周双倍用量策略或旨在加速用户迁移与反馈收集。

考虑到当前披露的训练数据均为 Cursor 自评，且更大规模模型的具体规格尚未公布，Composer 2.5 在实际复杂代码库中的表现仍需第三方评测与开发者真实业务验证。

Cursor 发布 Composer 2.5：定向 RL 文本反馈与 Sharded Muon 优化器详解

Composer 2.5 核心能力升级

定向 RL 与文本反馈机制

合成数据规模扩展与奖励黑客防御

Sharded Muon 优化器与双网格 HSDP 架构

接入与未来路线

推荐阅读

CodeGraph 代码图谱发布：用本地索引降低 AI Agent 检索成本

Codex 速率限制问题已修复，所有账户额度已重置

Google 宣布 Gemini CLI 关停，6 月 18 日整合至 Antigravity CLI

ChatGPT PowerPoint 集成上线，支持直接创建编辑演示文稿

评论 ···

Composer 2.5 核心能力升级

定向 RL 与文本反馈机制

合成数据规模扩展与奖励黑客防御

Sharded Muon 优化器与双网格 HSDP 架构

接入与未来路线

分享

推荐阅读

评论 ···