CAN KNOWLEDGE EDITING REALLY CORRECT HALLUCINATIONS?

本文是LLM系列文章,针对《CAN KNOWLEDGE EDITING REALLY CORRECT HALLUCINATIONS?》的翻译。

摘要

大型语言模型(LLM)会出现幻觉,指代生成内容中的非真实信息,尽管它们在任务中具有优越的能力。与此同时,知识编辑已经发展成为一种新的流行范式,可以纠正LLM中编码的错误事实知识,从而避免从头开始重新训练。然而,用于知识编辑的现有评估数据集的一个常见问题是,它们不能确保LLM在编辑之前确实生成了对评估问题的幻觉答案。当LLM在经过不同技术编辑后在这些数据集上进行评估时,很难直接采用性能来评估不同知识编辑方法在纠正幻觉方面的有效性。因此,根本问题仍然没有得到充分验证:知识编辑真的能纠正LLM中的幻觉吗?我们提出了HalluEditBench来全面评估知识编辑方法在纠正现实世界幻觉方面的作用。首先,我们严格构建了一个包含9个领域、26个主题和6000多个幻觉的庞大幻觉数据集。然后,我们从效能、泛化、可移植性、局部性和稳健性五个维度全面评估了知识编辑方法的性能。通过HalluEditBench,我们对不同知识编辑方法在纠正幻觉方面的潜力和局限性提供了新的见解,这可以激发未来的改进,促进知识编辑领域的进步。

1 引言

2 HalluEdi

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值