Are Large Language Models Really Robust to Word-Level Perturbations?

828 篇文章

已下架不支持订阅

本文提出TREvaL,一种利用奖励模型评估LLM对单词级扰动的稳健性方法。研究发现,LLM在面对日常语言中的扰动时表现脆弱,且微调过程可能降低其鲁棒性。开源代码和数据集可在GitHub找到。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

本文是LLM系列文章,针对《Are Large Language Models Really Robust to Word-Level Perturbations?》的翻译。

摘要

大型语言模型(LLM)的规模和功能的迅速发展使其成为各种下游任务的有前途的工具。除了追求更好的性能和避免对某个提示的暴力反馈外,为了确保LLM的责任,LLM的稳健性也受到了关注。然而,现有的评估方法大多依赖于具有预定义监督标签的传统问答数据集,这与当代LLM的优越生成能力不符。为了解决这个问题,我们提出了一种新的理性评估方法,该方法利用预先训练的奖励模型作为诊断工具,来评估LLM从更具挑战性的开放问题中产生的较长对话,我们称之为合理稳健性评估的奖励模型(TREvaL)。较长的对话表明,就理解问题的熟练程度而言,他们对语言模型的全面掌握,而这一能力并不完全包含在单个单词或字母中,这可能表现出过于简单化和固有的偏见。我们广泛的经验实验表明,TREvaL为评估LLM的稳健性提供了一种创新的方法。此外,我们的研究结果表明,LLM经常表现出对日常语言使用中常见的单词级扰动的脆弱性。值得注意的是,我们惊讶地发现,随着微调(SFT和RLHF)的进行,鲁棒性往往会降低。TREvaL的代码可在https://github.com/Harry-mic/TREvaL上找到。

1 引言

2 相关工作

3 合理稳健性评价的奖励模型(TREvaL)

已下架不支持订阅

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值