自动评估RAG管道的考试生成技术
在大语言模型快速发展的领域中,准确评估检索增强生成模型至关重要。本文介绍了一种开创性方法,采用自动化考试生成过程,并通过项目反应理论增强,以评估RAG模型在特定任务上的事实准确性。该方法不仅稳健、可解释且成本效益高,还能战略性地识别模型优势并优化考试以最大化评估效用。
考试生成过程
RAG是一种处理自然语言查询的方法,通过检索相关文档并使用其中的文本来引导LLM生成响应。期望来自可靠文档的事实断言能够抑制LLM产生"幻觉"的倾向,即生成听起来合理但错误的句子。
为了评估特定任务上的RAG模型,我们使用LLM从任务特定知识库生成多项选择题。我们的方法对RAG系统和考试生成任务中使用的检索器和生成模型都是不可知的。
我们的方法有两个步骤。对于知识库中的每个文档,我们使用LLM和几种提示工程策略来创建候选问题。然后使用几种自然语言处理过滤器沿不同维度(如长度、不正确性和自包含性)移除低质量问题。
我们注意到一个有趣的不对称性:给定文档语料库,LLM生成问题和正确答案相对容易,因为两者的内容都包含在提示中。然而,创建高质量的错误答案(通常称为判别器)要困难得多。
为了过滤退化问题,我们使用Jaccard相似系数和基于嵌入的相似性度量。
以下是我们用于考试生成的提示:
Human: Here is some documentation from {task_domain}: {documentation}.\n
From this generate a difficult multi-form question for an exam.
It should have 4 candidates, 1 correct answer, and explanations.
Syntax should be Question: {question}\n
A){candidate A}\n
B){candidate B}\n
C){candidate C}\n
D){candidate D}
Correct Answer: {correct answer}\n
### Assistant:
模型评估与分析
在我们的研究中,我们分析了几个RAG管道变体,包括闭卷(不向LLM提供文档语料库知识)、先知(考试参与者可以访问用于生成问答对的特定文档,以及问题本身和所有可能的候选答案)和经典检索模型,如MultiQA嵌入、Siamese网络嵌入和BM25。我们的评估还扩展到不同规模的语言模型,从70亿参数到700亿参数,以了解模型规模对性能的影响。
为了展示该方法的实际效用,我们将其部署到广泛的领域中。这些包括某机构Web服务DevOps,其中基于云的服务故障排除指南测试模型的操作有效性;arXiv摘要,挑战模型从密集科学文本中解析和生成见解的能力;StackExchange问题,探测模型的响应性和准确性;以及SEC文件,其中财务报告的复杂性测试模型从结构化公司文档中提取细微信息的能力。这种多领域方法不仅增强了我们评估的稳健性,还确保我们的模型在各种实际应用中具有多功能性和可靠性。
我们的实验得出了四个关键发现。首先,没有一刀切的解决方案;检索方法的最佳选择,以及在较小程度上LLM的选择,通常取决于任务。例如,在SEC文件和arXiv摘要等任务中,BM25优于MultiQA和Siamese网络嵌入,表明稀疏检索通常比密集检索更有效。
其次,选择合适的检索方法可以比单纯使用更大的LLM带来更大的性能改进。例如,在SEC文件中,我们观察到从Siamese网络嵌入切换到DPRV2比切换到更大的LLM带来更大的性能增益。
第三,对于涉及闭源知识的任务,准确性的瓶颈通常是LLM而不是检索方法。最后,对齐不良的检索器组件可能导致比根本没有检索更差的准确性。
通过项目反应理论增强考试
将项目反应理论集成到我们的过程中显著提高了考试的质量。IRT基于问题的特征和模型的能力模拟正确响应的可能性。它使用三个因素——难度、区分度和猜测机会——来创建更准确反映和预测模型性能的考试。
IRT假定模型正确回答问题的概率与称为能力的潜在变量相关,并提供了一种估计该变量值的方法。因此,它提供了一种量化模型能力水平的方法。
我们的过程从初始考试评估开始,识别并移除对区分性洞察贡献最小的问题。然后基于更新的IRT参数迭代优化考试,这有助于准确评估细微的模型行为。
通过持续分析和调整基于IRT参数的考试,我们看到考试区分模型的能力有了显著提高。例如,我们使用Fisher信息来量化考试问题的信息量。Fisher信息衡量可观察随机变量关于未知参数提供的信息量,提供了一种在参数估计理论中衡量统计估计器精度的方法。
在arXiv任务的迭代改进过程中,Fisher信息函数持续显示进展,标志着考试区分模型能力的能力有了相当大的增强。这种迭代过程确保每个新版本的考试都比上一个更具信息量,并有效评估RAG模型的能力。
评估生成的考试
为了进一步增强RAG模型的评估,我们使用语义分析和Bloom修订分类法对考试问题进行分类。Bloom分类法有助于按认知复杂性(从基本回忆到分析任务)对问题进行分类,实现对模型能力的结构化评估。
Bloom分类法中的不同层次区分了知识维度(事实性、概念性、程序性和元认知)和认知过程维度(记忆、理解、应用、分析、评估和创造)。此外,我们通过识别关键词如"what"和"which"对问题进行语义分类。这些额外的分类使我们能够评估模型在不同能力水平上的表现。
为了将我们的方法扩展到问答应用之外,我们未来的研究将专注于摘要、翻译和情感分析等领域。我们还在处理元评估的复杂任务,比较和优化我们的评估方法以考虑LLM性能的多维性质。此外,我们将持续更新我们的方法以适应LLM技术的快速发展,确保对新兴模型进行稳健和全面的评估。
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号(网络安全技术点滴分享)
1282

被折叠的 条评论
为什么被折叠?



