RAGTruth:用于训练和评估的单词级 hallucination 语料库

RAGTruth:用于训练和评估的单词级 hallucination 语料库

RAGTruth Github repository for "RAGTruth: A Hallucination Corpus for Developing Trustworthy Retrieval-Augmented Language Models" RAGTruth 项目地址: https://gitcode.com/gh_mirrors/ra/RAGTruth

在当今自然语言处理(NLP)领域,Retrieval-augmented Generation(RAG)技术已成为缓解大型语言模型(LLM)hallucinations问题的关键方法。然而,即便是集成了RAG技术,LLM有时仍然会产生与检索内容不符的支持不足或矛盾的陈述。为了在RAG环境下开发有效的hallucination预防策略,创建可以衡量hallucination范围的基准数据集变得至关重要。

项目介绍

RAGTruth 是一个单词级别的hallucination语料库,旨在为Retrieval-augmented Generation(RAG)环境下的多种任务提供训练和评估数据。该语料库汇集了来自不同LLM的近18,000条自然生成的响应,这些响应已经经过精心的人工标注,包括对单个案例和单词级别的评估,以评估hallucination的强度。

项目技术分析

RAGTruth语料库的构建采用了先进的技术手段,其中包括对LLM生成的响应进行详细的标注,这些标注不仅包括hallucination的范围,还包括hallucination的类型和原因。例如,标注中包含了due_to_null字段,用于指示hallucination是否由空值引起;implicit_true字段则表示该跨度是正确的,尽管上下文中未提及该信息。

在数据结构方面,RAGTruth提供了两种主要的JSONL文件格式:response.jsonlsource_info.jsonlresponse.jsonl文件包含了响应的索引、源信息索引、生成模型的类型、生成响应时的温度、hallucination跨度、训练或测试标记、质量问题和响应内容。而source_info.jsonl文件则包含了源信息索引、任务类型、源内容、以及生成响应时使用的提示。

项目及技术应用场景

RAGTruth的应用场景广泛,尤其在以下方面具有显著价值:

  1. 模型评估:通过RAGTruth,研究人员可以对LLM在RAG环境下的表现进行细致的评估,从而更好地理解模型生成响应时的hallucination情况。
  2. 模型训练:RAGTruth语料库可以为模型的训练提供丰富的数据,帮助模型学习如何避免生成hallucinations。
  3. 基准测试:作为基准数据集,RAGTruth有助于比较不同LLM在RAG环境下的表现,促进技术的进步。

项目特点

RAGTruth 具有以下显著特点:

  • 全面性:覆盖了多种任务类型,包括问答(QA)、数据到文本(Data2txt)和摘要(Summary)。
  • 精确性:通过人工标注,为每个响应提供了详细的hallucination跨度信息。
  • 多样性:语料库包含了不同LLM生成的响应,以及来自不同来源的原始内容,确保了数据的多样性。
  • 实用性:提供了详细的标注信息和清晰的文件格式,便于研究人员和开发者使用。

RAGTruth作为一项开创性的开源项目,为NLP领域的研究和实践提供了宝贵的资源。通过使用RAGTruth,研究人员可以更深入地理解LLM在RAG环境下的行为,为未来的技术发展奠定坚实基础。我们强烈推荐对NLP和RAG技术感兴趣的读者和开发者关注并使用RAGTruth。

RAGTruth Github repository for "RAGTruth: A Hallucination Corpus for Developing Trustworthy Retrieval-Augmented Language Models" RAGTruth 项目地址: https://gitcode.com/gh_mirrors/ra/RAGTruth

创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

常琚蕙

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值