一种细粒度的评估RAG框架：RAGChecker-优快云博客

本文链接：https://blog.youkuaiyun.com/qianggezhishen/article/details/143849742

RAG和GraphRAG这两个技术在AI圈子里挺火的，原因嘛，就是它们能把大型语言模型（LLMs）和外部的知识库连起来，这样就能提高模型的准确性，减少那种不靠谱的输出。

之前也分享过一些提升RAG性能的新策略，比如数据准备、分块和嵌入模型这些。今天咱们聊聊一个新的评估工具——RAGChecker。

回顾上篇文章《检索增强生成（RAG）应用构建的最佳实践》，为RAG优化提供了新的视角。这项研究提供了一个经过严格实验验证的最佳实践系统列表，涵盖了各种NLP任务和数据集。

研究者们仔细评估了RAG的各个部分和它们的组合，给出了一些根据具体情况的建议，既考虑了效果，也考虑了效率。这对于开发应用程序的AI团队来说特别有用，因为它为RAG的每个阶段都提供了实用的见解。

重点在于单独评估RAG管道中的各个组件——从处理查询到检索文档、重新排名和微调模型。主要的建议有这么几个：

查询处理：搞一个查询分类模块，来决定啥时候需要外部检索，然后用查询重写技术来提高检索的准确性。
文档检索：用混合检索方法，比如把BM25和密集检索结合起来，可能的话，通过假设文档扩展来提高相关性。
文档重新排名：用monoT5或者像TILDEv2这样的高效模型来提高检索文档的相关性。
文档处理：用反向重新打包和Recomp摘要这些技术来优化输入到语言模型的数据。
模型微调：用混合上下文微调来提高模型从噪声中识别相关信息的能力。

这些建议提供了一个系统化的方法来优化RAG，帮助团队能够有条不紊地提升系统性能。

具体细节这里不累赘，请查看原文《Searching for Best Practices in Retrieval-Augmented Generation》。

实施RAG只是开始，真正难的是评估它的效果。RAG系统因为模块多，评估起来特别复杂，尤其是要评估那些长回答的时候。传统的评估方法往往不够用，它们要么只关注检索器的性能，要么就抓不到生成内容的细节。

那怎么办呢？这时候《RAGChecker: A Fine-grained Framework for Diagnosing Retrieval-Augmented Generation》这个新的评估框架就派上用场了。它与我之前分享的《如何评估检索增强型生成（RAG）应用》不同，RAGChecker解决了现有评估工具的局限，具体来说：

它通过声明级别的蕴含检查来进行细粒度的评估，就是把生成的回答拆成一个个声明，然后对照参考文本来评估每个声明的支持度或矛盾。
它提供了整体和模块化的指标，这样可以全面评估系统。
它有一系列指标，包括忠实度、噪声敏感性和上下文利用等方面。
它还提供了涵盖不同领域的基准数据集。

RAGChecker的特别之处在于它和人类的判断很接近，在评估RAG输出的正确性、完整性和整体质量方面做得比现有指标好。这种和人类评估的一致性，让它成为AI团队严格评估和改进RAG系统的有力工具。

RAGChecker中提出的指标

对于实际工作者来说，RAGChecker带来的好处包括：

可以全面评估RAG系统的性能。
可以进行详细的错误分析，以便有针对性地改进。
可以比较不同RAG架构的评估。
可以优化检索器和生成器的组件。
可以进行标准化的基准测试。

这种细节对于需要信任并持续改进RAG系统的团队来说非常重要。RAGChecker不仅和人类判断一致，还提供了可以指导系统改进的实用见解。

随着RAG及其变体不断发展，我们对它的实施和评估方法也得不断进步。实施最佳实践和RAGChecker评估框架是我们细化思路和优化RAG系统的重要工具。它们帮助我们得到更精确、更有上下文意识、更可靠的AI输出——这些在实际应用中越来越重要。通过不断改进这些系统，我们就能更好地发挥RAG的潜力，确保AI解决方案既创新又可靠。

参考文献：

RAGChecker: A Fine-grained Framework for Diagnosing Retrieval-Augmented Generation, https://arxiv.org/abs/2408.08067
Searching for Best Practices in Retrieval-Augmented Generation, https://arxiv.org/abs/2407.01219