RAGTruth:用于训练和评估的单词级 hallucination 语料库
在当今自然语言处理(NLP)领域,Retrieval-augmented Generation(RAG)技术已成为缓解大型语言模型(LLM)hallucinations问题的关键方法。然而,即便是集成了RAG技术,LLM有时仍然会产生与检索内容不符的支持不足或矛盾的陈述。为了在RAG环境下开发有效的hallucination预防策略,创建可以衡量hallucination范围的基准数据集变得至关重要。
项目介绍
RAGTruth 是一个单词级别的hallucination语料库,旨在为Retrieval-augmented Generation(RAG)环境下的多种任务提供训练和评估数据。该语料库汇集了来自不同LLM的近18,000条自然生成的响应,这些响应已经经过精心的人工标注,包括对单个案例和单词级别的评估,以评估hallucination的强度。
项目技术分析
RAGTruth语料库的构建采用了先进的技术手段,其中包括对LLM生成的响应进行详细的标注,这些标注不仅包括hallucination的范围,还包括hallucination的类型和原因。例如,标注中包含了due_to_null
字段,用于指示hallucination是否由空值引起;implicit_true
字段则表示该跨度是正确的,尽管上下文中未提及该信息。
在数据结构方面,RAGTruth提供了两种主要的JSONL文件格式:response.jsonl
和source_info.jsonl
。response.jsonl
文件包含了响应的索引、源信息索引、生成模型的类型、生成响应时的温度、hallucination跨度、训练或测试标记、质量问题和响应内容。而source_info.jsonl
文件则包含了源信息索引、任务类型、源内容、以及生成响应时使用的提示。
项目及技术应用场景
RAGTruth的应用场景广泛,尤其在以下方面具有显著价值:
- 模型评估:通过RAGTruth,研究人员可以对LLM在RAG环境下的表现进行细致的评估,从而更好地理解模型生成响应时的hallucination情况。
- 模型训练:RAGTruth语料库可以为模型的训练提供丰富的数据,帮助模型学习如何避免生成hallucinations。
- 基准测试:作为基准数据集,RAGTruth有助于比较不同LLM在RAG环境下的表现,促进技术的进步。
项目特点
RAGTruth 具有以下显著特点:
- 全面性:覆盖了多种任务类型,包括问答(QA)、数据到文本(Data2txt)和摘要(Summary)。
- 精确性:通过人工标注,为每个响应提供了详细的hallucination跨度信息。
- 多样性:语料库包含了不同LLM生成的响应,以及来自不同来源的原始内容,确保了数据的多样性。
- 实用性:提供了详细的标注信息和清晰的文件格式,便于研究人员和开发者使用。
RAGTruth作为一项开创性的开源项目,为NLP领域的研究和实践提供了宝贵的资源。通过使用RAGTruth,研究人员可以更深入地理解LLM在RAG环境下的行为,为未来的技术发展奠定坚实基础。我们强烈推荐对NLP和RAG技术感兴趣的读者和开发者关注并使用RAGTruth。
创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考