本文是LLM系列文章,针对《EVALUATING HALLUCINATIONS IN CHINESE LARGE LANGUAGE MODELS》的翻译。
摘要
在本文中,我们建立了一个名为HalluQA (Chinese Hallucination question - answers)的基准来测量中文大型语言模型中的幻觉现象。HalluQA包含450个精心设计的对抗性问题,跨越多个领域,并考虑到中国的历史文化,习俗和社会现象。在构建HalluQA的过程中,我们考虑了两种类型的幻觉:模仿虚假和事实错误,并基于GLM-130B和ChatGPT构建了对抗性样本。为了评估,我们设计了一种使用GPT-4的自动评估方法来判断模型输出是否存在幻觉。我们在ERNIE-Bot、百川2、ChatGLM、Qwen、SparkDesk等24个大型语言模型上进行了大量的实验。在24个模型中,18个模型的无幻觉率低于50%。这表明《HalluQA》具有很高的挑战性。我们分析了不同类型模型中幻觉的主要类型及其原因。此外,我们还讨论了不同类型的模型应该优先考虑哪种类型的幻觉。
1 引言
2 HALLUQA基准
3 实验
4 讨论
5 相关工作
6 结论
在这项工作中,我们创建了一个名为HalluQA的中文幻觉问答数据集,用于评估中文大型语言模型中的幻觉。HalluQA中的问题可以用来衡量假性谎言和事实性错误。设计了一种基于llm的自动化评价方法,并验证了其有效性。我们在24个大型语言模型上进行了大量的实验。所有模型在Hall

本文构建了HalluQA基准,用于检测中文大型语言模型的幻觉现象,涵盖450个对抗性问题,涉及18个模型的实验显示无幻觉率低于50%,提出了自动化评估方法并分析了幻觉类型和原因。
订阅专栏 解锁全文
674

被折叠的 条评论
为什么被折叠?



