ToolSword: Unveiling Safety Issues of Large Language Models in Tool Learning Across Three Stages

828 篇文章

已下架不支持订阅

本文提出了ToolSword框架,关注大型语言模型在工具学习过程中存在的安全问题,涵盖输入、执行和输出三个阶段,揭示了如恶意查询、误导、有害反馈等安全隐患,并在多个LLM上进行实验,强调了安全对齐机制研究的重要性。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

本文是LLM系列文章,针对《ToolSword: Unveiling Safety Issues of Large Language Models in Tool Learning Across Three Stages》的翻译。

工具之剑:跨越三个阶段揭示工具学习中大型语言模型的安全问题

摘要

工具学习被广泛认为是在现实世界场景中部署大型语言模型的基础方法。虽然目前的研究主要强调利用工具来增强LLM,但它经常忽视与应用相关的新出现的安全考虑因素。为了填补这一空白,我们推出了ToolSword,这是一个全面的框架,致力于仔细调查工具学习中与LLM相关的安全问题。具体而言,ToolSword描述了LLM在工具学习中的六种安全场景,包括输入阶段的恶意查询和越狱攻击、执行阶段的嘈杂误导和风险提示,以及输出阶段的有害反馈和错误冲突。在11个开源和闭源LLM上进行的实验揭示了工具学习中持久的安全挑战,如处理有害查询、使用有风险的工具和提供有害反馈,即使是GPT-4也容易受到这些挑战的影响。此外,我们还进行了进一步的研究,以促进对工具学习安全的研究。数据发布于https://github.com/Junjie-Ye/ToolSword.

1 引言

2 ToolSword

3 实验

<

已下架不支持订阅

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值