
文章主要内容总结
本文提出了一种名为因果影响提示(Causal Influence Prompting, CIP) 的新技术,旨在通过因果影响图(Causal Influence Diagrams, CIDs)增强大型语言模型(LLM)代理的安全性。
- 核心问题:LLM代理在执行复杂任务(如网页搜索、移动设备控制、代码执行)时,可能因缺乏风险预判而导致隐私泄露、恶意代码执行等安全问题,现有安全提示方法(如Safety-guided Chain-of-Thought、Safety-Aware Prompting)仍存在局限性。
- CIP方法:
- CID初始化:基于任务指令和行动空间构建CID,通过节点(机会节点、决策节点、效用节点)和边(因果关系)建模决策过程。
- 环境交互:代理依据CID指导与环境的交互,推理因果关系以预判风险。
- CID迭代优化:根据环境反馈动态更新CID,纳入新识别的风险因素。
- 实验验证:在MobileSafetyBench(移动设备控制)、RedCode-Exec(代码执行)、AgentHar
订阅专栏 解锁全文
1861

被折叠的 条评论
为什么被折叠?



