本文是LLM系列文章,针对《ToolSword: Unveiling Safety Issues of Large Language Models in Tool Learning Across Three Stages》的翻译。
摘要
工具学习被广泛认为是在现实世界场景中部署大型语言模型的基础方法。虽然目前的研究主要强调利用工具来增强LLM,但它经常忽视与应用相关的新出现的安全考虑因素。为了填补这一空白,我们推出了ToolSword,这是一个全面的框架,致力于仔细调查工具学习中与LLM相关的安全问题。具体而言,ToolSword描述了LLM在工具学习中的六种安全场景,包括输入阶段的恶意查询和越狱攻击、执行阶段的嘈杂误导和风险提示,以及输出阶段的有害反馈和错误冲突。在11个开源和闭源LLM上进行的实验揭示了工具学习中持久的安全挑战,如处理有害查询、使用有风险的工具和提供有害反馈,即使是GPT-4也容易受到这些挑战的影响。此外,我们还进行了进一步的研究,以促进对工具学习安全的研究。数据发布于https://github.com/Junjie-Ye/ToolSword.
ToolSword:大型语言模型工具学习的安全问题探究

本文提出了ToolSword框架,关注大型语言模型在工具学习过程中存在的安全问题,涵盖输入、执行和输出三个阶段,揭示了如恶意查询、误导、有害反馈等安全隐患,并在多个LLM上进行实验,强调了安全对齐机制研究的重要性。
已下架不支持订阅
320

被折叠的 条评论
为什么被折叠?



