RAGTruth：用于训练和评估的单词级 hallucination 语料库-优快云博客

本文链接：https://blog.youkuaiyun.com/gitblog_01127/article/details/146723205

RAGTruth：用于训练和评估的单词级 hallucination 语料库

RAGTruth Github repository for "RAGTruth: A Hallucination Corpus for Developing Trustworthy Retrieval-Augmented Language Models" 项目地址: https://gitcode.com/gh_mirrors/ra/RAGTruth

在当今自然语言处理（NLP）领域，Retrieval-augmented Generation（RAG）技术已成为缓解大型语言模型（LLM）hallucinations问题的关键方法。然而，即便是集成了RAG技术，LLM有时仍然会产生与检索内容不符的支持不足或矛盾的陈述。为了在RAG环境下开发有效的hallucination预防策略，创建可以衡量hallucination范围的基准数据集变得至关重要。

项目介绍

RAGTruth 是一个单词级别的hallucination语料库，旨在为Retrieval-augmented Generation（RAG）环境下的多种任务提供训练和评估数据。该语料库汇集了来自不同LLM的近18,000条自然生成的响应，这些响应已经经过精心的人工标注，包括对单个案例和单词级别的评估，以评估hallucination的强度。

项目技术分析

RAGTruth语料库的构建采用了先进的技术手段，其中包括对LLM生成的响应进行详细的标注，这些标注不仅包括hallucination的范围，还包括hallucination的类型和原因。例如，标注中包含了due_to_null字段，用于指示hallucination是否由空值引起；implicit_true字段则表示该跨度是正确的，尽管上下文中未提及该信息。

在数据结构方面，RAGTruth提供了两种主要的JSONL文件格式：response.jsonl和source_info.jsonl。response.jsonl文件包含了响应的索引、源信息索引、生成模型的类型、生成响应时的温度、hallucination跨度、训练或测试标记、质量问题和响应内容。而source_info.jsonl文件则包含了源信息索引、任务类型、源内容、以及生成响应时使用的提示。