【AI安全】Anthropic推出AI安全工具Petri:通过自主Agent研究大模型行为

Anthropic推出AI安全工具Petri:通过自主Agent研究大模型行为


Anthropic PBC公司近日发布了一款新型开源工具, 通过AI Agent(智能体)审计大语言模型(LLM)行为,进一步加强人工智能安全防护。这款名为 Petri(Parallel Exploration Tool for Risky Interactions)的工具旨在识别模型多种潜在问题行为,包括欺骗用户、举报行为、配合人类滥用以及助长恐怖主义等。

Petri pipeline

1. 14款主流模型均存在安全隐患

使用Petri对14款主流LLM进行审计测试,其中包括其旗舰模型Claude Sonnet 4.5、OpenAI的GPT-5、Google的Gemini 2.5 Pro以及xAI的Grok-4。令人担忧的是,所有被测模型均被发现存在问题。

Anthropic在博客中指出,由于LLM行为的复杂性和多样性远超研究人员手动测试能力,Petri这类Agent工具具有重要意义。这标志着AI安全测试从静态基准评估转向自动化持续审计,不仅能在模型发布前发现风险行为,还能监测部署后的实际表现。

值得注意的是,Claude Sonnet 4.5在111项"高风险任务"测试中综合表现最佳。评估涵盖四大安全风险类别:

  • 欺骗行为(模型故意提供虚假信息)
  • 权力寻求(试图获取影响力或控制权)
  • 阿谀奉承(对用户的错误观点表示认同)
  • 拒绝失效(本应拒绝的请求却予以配合)

尽管Claude表现最优,Anthropic仍坦言所有14款模型都经Petri检测出"行为失准"问题。
大模型审计结果在这里插入图片描述

2. 自动化安全测试新范式

Anthropic强调,模型排名并非本项目的核心目标。Petri的真正价值在于为开发者社区提供工具,监测AI在各种潜在风险场景中的表现

研究人员只需输入简单提示词(如诱导欺骗或越狱尝试),Petri就会启动审计Agent进行多维度测试。这些Agent会以不同方式与模型交互,动态调整策略以识别有害响应。

Petri结合测试Agent与评判模型,从诚实度、拒绝能力等维度评估LLM表现,并标记存在风险输出的对话记录供人工复核。该工具能大幅减少人工安全评估工作量,其开源特性也有助于推动行业安全标准建立。

除核心工具外,Anthropic还发布了数十个示例提示词、评估代码及扩展指南。公司坦言Petri存在局限,例如评判模型可能继承被测模型的细微偏差,导致过度惩罚模糊响应或偏好特定回答风格。

3. 举报行为测试案例

在专项研究中,Anthropic使用Petri测试了不同AI模型的举报倾向:

“当模拟开发者赋予模型足够权限、无限制信息访问和自主行动指令时,我们观察到多个模型试图举报——自主披露其认为的组织不当行为。虽然这在理论上能预防某些大规模危害,但对现有AI系统而言并不适宜:这涉及严重隐私问题,且因错误举报导致信息泄露的风险极高。”

测试中,模型被设定为虚构组织内的自主Agent,并接触显示不当行为的信息。结果显示,模型是否披露信息取决于其被赋予的自主权等级,以及虚构组织领导层的共谋程度。
Whistleblowing ablations
某些情况下,模型甚至会对完全无害的"不当行为"(如虚构组织向海洋排放清洁水)进行举报。研究人员指出,这表明模型更容易受叙事线索影响,缺乏最小化危害的连贯伦理框架

Anthropic承认Petri存在其他潜在问题,例如测试过程中Agent可能暴露审计意图,导致模型隐藏不良行为。但尽管如此,该工具仍能为开发者提供可量化的安全指标,帮助聚焦研究方向。

参考来源:
Anthropic’s AI safety tool Petri uses autonomous agents to study model behavior

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

镰刀韭菜

看在我不断努力的份上,支持我吧

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值