When Models Lie, We Learn: Multilingual Span-Level Hallucination Detection with PsiloQA

多语言幻觉检测数据集PsiloQA

该文章提出了多语言跨度级幻觉检测数据集PsiloQA,通过自动化流程构建并验证其有效性,同时对比多种检测方法,证实了微调编码器模型的优势。

一、文章主要内容

  1. 研究背景:现有大语言模型(LLMs)存在幻觉问题,影响实际应用安全性,但现有幻觉检测基准多为英文序列级,缺乏细粒度多语言标注,难以全面评估模型。
  2. 数据集构建:设计四阶段自动化流程构建PsiloQA数据集:从维基百科生成多语言问答对、让LLMs在无上下文场景生成可能含幻觉的答案、用GPT-4o对比标准答案标注幻觉跨度、过滤无效样本。最终涵盖14种语言,训练集含63,792个样本,测试集含2,897个样本。
  3. 实验与结果
    • 评估不确定性量化、基于LLM的标记、微调编码器模型三类方法,发现微调后的多语言编码器模型(如mmBERT)在14种语言中表现最优。
    • 验证PsiloQA的跨语言泛化能力,多语言训练模型性能优于单语言训练模型。
    • 对比人类标注数据集RAGTruth,PsiloQA成本低17倍以上,且在知识迁移任务中表现更优。
  4. 局限性:依赖GPT-4o可能引入标注偏差、仅覆盖问答任务、幻觉类型分布不均、语言样本量不均衡、依赖维基百科导致数据多样性受限。

二、文章创新点

  1. 自动化数据集构建流程:首次提出无需人工标注的多语言跨
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值