Enhancing LLM Agent Safety via Causal Influence Prompting

在这里插入图片描述

文章主要内容总结

本文提出了一种名为因果影响提示(Causal Influence Prompting, CIP) 的新技术,旨在通过因果影响图(Causal Influence Diagrams, CIDs)增强大型语言模型(LLM)代理的安全性。

  1. 核心问题:LLM代理在执行复杂任务(如网页搜索、移动设备控制、代码执行)时,可能因缺乏风险预判而导致隐私泄露、恶意代码执行等安全问题,现有安全提示方法(如Safety-guided Chain-of-Thought、Safety-Aware Prompting)仍存在局限性。
  2. CIP方法
    • CID初始化:基于任务指令和行动空间构建CID,通过节点(机会节点、决策节点、效用节点)和边(因果关系)建模决策过程。
    • 环境交互:代理依据CID指导与环境的交互,推理因果关系以预判风险。
    • CID迭代优化:根据环境反馈动态更新CID,纳入新识别的风险因素。
  3. 实验验证:在MobileSafetyBench(移动设备控制)、RedCode-Exec(代码执行)、AgentHar
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值