本文是LLM系列文章,针对《ToolSword: Unveiling Safety Issues of Large Language Models in Tool Learning Across Three Stages》的翻译。
摘要
工具学习被广泛认为是在现实世界场景中部署大型语言模型的基础方法。虽然目前的研究主要强调利用工具来增强LLM,但它经常忽视与应用相关的新出现的安全考虑因素。为了填补这一空白,我们推出了ToolSword,这是一个全面的框架,致力于仔细调查工具学习中与LLM相关的安全问题。具体而言,ToolSword描述了LLM在工具学习中的六种安全场景,包括输入阶段的恶意查询和越狱攻击、执行阶段的嘈杂误导和风险提示,以及输出阶段的有害反馈和错误冲突。在11个开源和闭源LLM上进行的实验揭示了工具学习中持久的安全挑战,如处理有害查询、使用有风险的工具和提供有害反馈,即使是GPT-4也容易受到这些挑战的影响。此外,我们还进行了进一步的研究,以促进对工具学习安全的研究。数据发布于https://github.com/Junjie-Ye/ToolSword.