【AI安全】Anthropic推出AI安全工具Petri：通过自主Agent研究大模型行为

最新推荐文章于 2025-11-04 09:27:40 发布

原创最新推荐文章于 2025-11-04 09:27:40 发布 · 821 阅读

14 ·

CC 4.0 BY-SA版权

文章标签：

#AI安全 #大模型 #Petri #Anthropic

大语言模型与提示学习专栏收录该内容

32 篇文章

订阅专栏

Anthropic推出AI安全工具Petri：通过自主Agent研究大模型行为

1. 14款主流模型均存在安全隐患
2. 自动化安全测试新范式
3. 举报行为测试案例

Anthropic PBC公司近日发布了一款新型开源工具， 通过AI Agent（智能体）审计大语言模型（LLM）行为，进一步加强人工智能安全防护。这款名为 Petri（Parallel Exploration Tool for Risky Interactions）的工具旨在识别模型多种潜在问题行为，包括欺骗用户、举报行为、配合人类滥用以及助长恐怖主义等。

Petri pipeline

1. 14款主流模型均存在安全隐患

使用Petri对14款主流LLM进行审计测试，其中包括其旗舰模型Claude Sonnet 4.5、OpenAI的GPT-5、Google的Gemini 2.5 Pro以及xAI的Grok-4。令人担忧的是，所有被测模型均被发现存在问题。

Anthropic在博客中指出，由于LLM行为的复杂性和多样性远超研究人员手动测试能力，Petri这类Agent工具具有重要意义。这标志着AI安全测试从静态基准评估转向自动化持续审计，不仅能在模型发布前发现风险行为，还能监测部署后的实际表现。

值得注意的是，Claude Sonnet 4.5在111项"高风险任务"测试中综合表现最佳。评估涵盖四大安全风险类别：

欺骗行为（模型故意提供虚假信息）
权力寻求（试图获取影响力或控制权）
阿谀奉承（对用户的错误观点表示认同）
拒绝失效（本应拒绝的请求却予以配合）

尽管Claude表现最优，Anthropic仍坦言所有14款模型都经Petri检测出"行为失准"问题。
大模型审计结果在这里插入图片描述

2. 自动化安全测试新范式

Anthropic强调，模型排名并非本项目的核心目标。Petri的真正价值在于为开发者社区提供工具，监测AI在各种潜在风险场景中的表现。

研究人员只需输入简单提示词（如诱导欺骗或越狱尝试），Petri就会启动审计Agent进行多维度测试。这些Agent会以不同方式与模型交互，动态调整策略以识别有害响应。

Petri结合测试Agent与评判模型，从诚实度、拒绝能力等维度评估LLM表现，并标记存在风险输出的对话记录供人工复核。该工具能大幅减少人工安全评估工作量，其开源特性也有助于推动行业安全标准建立。

除核心工具外，Anthropic还发布了数十个示例提示词、评估代码及扩展指南。公司坦言Petri存在局限，例如评判模型可能继承被测模型的细微偏差，导致过度惩罚模糊响应或偏好特定回答风格。

3. 举报行为测试案例

在专项研究中，Anthropic使用Petri测试了不同AI模型的举报倾向：

“当模拟开发者赋予模型足够权限、无限制信息访问和自主行动指令时，我们观察到多个模型试图举报——自主披露其认为的组织不当行为。虽然这在理论上能预防某些大规模危害，但对现有AI系统而言并不适宜：这涉及严重隐私问题，且因错误举报导致信息泄露的风险极高。”

测试中，模型被设定为虚构组织内的自主Agent，并接触显示不当行为的信息。结果显示，模型是否披露信息取决于其被赋予的自主权等级，以及虚构组织领导层的共谋程度。
Whistleblowing ablations
某些情况下，模型甚至会对完全无害的"不当行为"（如虚构组织向海洋排放清洁水）进行举报。研究人员指出，这表明模型更容易受叙事线索影响，缺乏最小化危害的连贯伦理框架。