该文章提出了多语言跨度级幻觉检测数据集PsiloQA,通过自动化流程构建并验证其有效性,同时对比多种检测方法,证实了微调编码器模型的优势。
一、文章主要内容
- 研究背景:现有大语言模型(LLMs)存在幻觉问题,影响实际应用安全性,但现有幻觉检测基准多为英文序列级,缺乏细粒度多语言标注,难以全面评估模型。
- 数据集构建:设计四阶段自动化流程构建PsiloQA数据集:从维基百科生成多语言问答对、让LLMs在无上下文场景生成可能含幻觉的答案、用GPT-4o对比标准答案标注幻觉跨度、过滤无效样本。最终涵盖14种语言,训练集含63,792个样本,测试集含2,897个样本。
- 实验与结果:
- 评估不确定性量化、基于LLM的标记、微调编码器模型三类方法,发现微调后的多语言编码器模型(如mmBERT)在14种语言中表现最优。
- 验证PsiloQA的跨语言泛化能力,多语言训练模型性能优于单语言训练模型。
- 对比人类标注数据集RAGTruth,PsiloQA成本低17倍以上,且在知识迁移任务中表现更优。
- 局限性:依赖GPT-4o可能引入标注偏差、仅覆盖问答任务、幻觉类型分布不均、语言样本量不均衡、依赖维基百科导致数据多样性受限。
二、文章创新点
- 自动化数据集构建流程:首次提出无需人工标注的多语言跨
多语言幻觉检测数据集PsiloQA

订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



