Anthropic 宣布将开源对齐评测工具 Petri 的开发移交给 AI 评估非营利机构 Meridian Labs,并同步更新到 Petri 3.0。Petri 3.0 对齐评测面向大语言模型的欺骗、阿谀和配合有害请求等风险行为,已被用于 Claude Sonnet 4.5 以来每个 Claude 模型的对齐评估。

Petri 3.0 对齐评测工具发布概念图

Petri 3.0 对齐评测的定位

Petri 最初由 Anthropic 在 2025 年 10 月推出,是一个开源对齐测试工具箱。它可以应用于任意大语言模型,用于快速检查欺骗、sycophancy、以及配合有害请求等风险倾向。Anthropic 表示,Petri 已纳入其内部模型评估流程,并覆盖 Claude Sonnet 4.5 之后的每个 Claude 模型。

Petri 如何用 auditor 与 judge 评估模型行为

Petri 的核心机制是让目标模型进入一组与对齐相关的模拟场景。另一个独立的 auditor model 负责构造和推进这些场景,随后 judge model 对生成的对话记录打分,判断是否出现不对齐行为。这种设计的价值在于把行为诱发与结果评分拆开,减少单一模型同时扮演测试者和裁判时的偏差。英国 AI Security Institute(AISI)已经把 Petri 作为模型评估的重要组成部分,用于衡量模型破坏 AI 研究的倾向。

Petri 3.0 引入 Dish 与 Bloom 集成

Petri 3.0 的第一项变化是适配性提升。新版架构把 auditor model 与 target model 拆成可独立调整的组件,使研究者更容易把测试迁移到不同模型和不同风险场景。第二项变化是现实感增强。Anthropic 为 Petri 增加了名为 Dish 的组件,可使用真实系统提示词和真实 scaffold 运行测试,降低模型识别自己正在接受评估的概率。第三项变化是评估深度提升。Petri 3.0 已与另一款开源对齐工具 Bloom 集成,后者更适合深入分析特定行为,而 Petri 更偏向广覆盖筛查。Meridian Labs 在Petri 3.0 发布博客中介绍了这些更新。

移交 Meridian Labs 强化独立评估可信度

Anthropic 已把 Petri 的后续开发移交给 Meridian Labs。Anthropic 将这一安排类比为把 Model Context Protocol(MCP)捐赠给 Linux Foundation:工具不再由单一 AI 实验室主导,更容易被行业、政府和独立研究者视为中立基础设施。Petri 加入 Meridian Labs 后,将与 Inspect、Scout 等工具共同构成开放评估技术栈。安装与使用说明已发布在Petri 官方文档网站。 Petri 3.0 对齐评测的重要性不只在于新增功能。更关键的行业含义是,前沿模型评估正在从实验室内部流程转向可复用、可审查的公共工具链。这个方向有助于让模型安全结果更易被第三方复现,但 Petri 的实际公信力仍取决于外部机构如何使用、扩展和公开其评估结果。

评论 ···