文章链接:7B?13B?175B?解读大模型的参数 (qq.com)
写在前面: 笔者更新不易,希望走过路过点个关注和赞,笔芯!!!
写在前面: 笔者更新不易,希望走过路过点个关注和赞,笔芯!!!
写在前面: 笔者更新不易,希望走过路过点个关注和赞,笔芯!!!
摘要
《ClashEval》这篇论文由斯坦福大学的研究者Kevin Wu、Eric Wu和James Zou撰写,研究关注的是在使用检索增强生成(RAG)技术的大规模语言模型(LLM)中,如何处理外部检索到的信息。RAG旨在减少幻觉并为模型提供最新知识,但当检索到的内容存在错误或有害信息时,模型如何应对这一问题?
研究者创建了一个包含1200多个问题的数据集,覆盖了六个不同领域,如药物剂量、奥运记录和地理位置,以及与每个问题相关的内容。并针对每个问题的答案进行了不同程度的错误注入。通过对六个顶级LLMs的基准测试,发现这些模型在面对错误检索内容时,有超过60%的概率会忽略自身正确的先验知识,采纳错误的检索召回的信息(这个错误的召回信息语句上不存在语法逻辑)。研究还发现,检索内容与真实情况偏离程度越大,模型采纳错误信息的可能性越小。此外,模型对其初始回答的置信度越低,采纳检索内容的可能性越大。文章还提出了基于令牌概率的简单方法来提高模型在冲突检索内容中的准确性,并将数据集和评估开源。
背景
随着RAG系统的广泛应用,模型在回答问题时不仅依赖于其训练数据,还会参考从网络或其他来源检索到的信息。然而,如果这些信息是错误的,模型应该能够识别并忽略它们,而不是盲目地重复错误。反之,当模型的初始响应不正确时,它应该能够利用正确的外

最低0.47元/天 解锁文章
2234

被折叠的 条评论
为什么被折叠?



