本文是LLM系列文章,针对《The Dawn After the Dark: An Empirical Study on Factuality Hallucination in Large Language Models》的翻译。
摘要
在大型语言模型(LLM)时代,幻觉(即生成事实上不正确内容的趋势)对LLM在现实世界应用中的可信和可靠部署提出了巨大挑战。为了解决LLM幻觉,应该好好研究三个关键问题:如何检测幻觉(检测),LLM为什么会产生幻觉(来源),以及如何减轻幻觉(缓解)。为了应对这些挑战,本工作对LLM幻觉进行了系统的实证研究,重点关注幻觉检测、来源和缓解三个方面。特别地,我们构建了一个新的幻觉基准HaluEval 2.0,并设计了一种简单有效的LLM幻觉检测方法。此外,我们深入研究了LLM的不同训练或使用阶段,并广泛分析了导致LLM幻觉的潜在因素。最后,我们实现并检查了一系列广泛使用的技术,以减轻LLM中的幻觉。我们的工作已经导致了几个重要的发现,以了解幻觉的起源并减轻LLM中的幻觉。我们的代码和数据可以访问https://github.com/RUCAIBox/HaluEval-2.0。