Anthropic 用宪法文档降低 Claude 代理失准
Anthropic 官方称,围绕 Claude 宪法编写的高质量文档与描写对齐 AI 的虚构故事,可将 Claude 代理失准降低到原来的三分之一以下。这些干预与评测场景无关,但效果在 reinforcement learning 后仍保留,并可与常规 harmlessness training 叠加。

Claude 代理失准可由宪法文档显著降低
Anthropic 在 2026 年 5 月 9 日披露了一组对齐训练实验结果。根据 Anthropic 对齐团队的完整文章,研究人员使用基于 Claude constitution 的高质量文档,配合描写对齐 AI 的虚构故事,降低了 agentic misalignment。官方表述称,这类干预可让失准行为减少超过 3 倍。关键点在于,训练材料并不直接对应评测场景。这说明模型可能从更一般的价值说明中学习行为约束,而不只是记住特定测试答案。
对齐故事的效果能穿过 reinforcement learning
Anthropic 称,这些干预带来的改进在 reinforcement learning 之后仍然存在。换言之,后续强化学习没有完全抹掉前置文档与故事注入的行为倾向。官方还表示,这类方法可与常规 harmlessness training 叠加,而不是替代现有安全训练流程。这个结果的行业含义在于,对齐训练可能不只依赖拒答样本或偏好数据。更抽象的原则性材料,也可能在模型行为中留下可测量痕迹。
数据多样化加快降低 blackmail rate
Anthropic 还测试了更简单的数据更新。研究人员向一个面向 harmlessness 的普通聊天数据集加入无关工具和 system prompts,用于增加训练数据的多样性。官方称,这种改动让 blackmail rate 下降得更快。这里的重点不是某个单一工具带来安全收益,而是训练分布的宽度会影响模型在高风险评测中的行为。对开发者而言,这提示安全数据集设计不能只覆盖明确的拒答场景,也需要覆盖工具调用、系统提示与任务外上下文的组合。
Claude 代理失准研究仍需看评测边界
这项结果来自 Anthropic 官方研究披露,但原文摘要未给出完整 benchmark 细节、样本规模或各组绝对错误率。因而更稳妥的解读是:宪法文档、对齐故事与数据多样化在特定 agentic misalignment 评测中显示出显著收益。它们不能直接等同于通用安全保证,也不能证明模型在所有真实部署场景中都会保持同等改进。对齐研究的关键问题仍是迁移性:训练材料与评测任务无关时仍能生效,这一点值得关注;但效果能否跨模型规模、工具环境与长程任务保持稳定,还需要更多公开实验支撑。 Anthropic 这次披露把 Claude 代理失准问题从单纯的拒答训练,推进到价值文档、故事语料与数据分布设计的组合视角。判断上看,这反映了前沿模型安全训练正在从结果约束转向过程塑形,但最终效果仍需由更透明的评测设置与复现实验验证。
评论 ···