也看引入反思的多模态mR2AG及实体链接为核心的G-RAG实现思路-优快云博客

文章转自公众号老刘说NLP

我们今天继续来关注RAG相关进展，目前热点集中于多模态RAG以及GraphRAG，关于这两块，我们已经讲了很多了。现在来看下最新的两个工作。

对了，对于大模型评估这块，社区成员有个工作《A Survey on LLM-as-a-Judge》(https://arxiv.org/abs/2411.15594)，讨论了LLM-as-a-Judge的相关研究，并且围绕how to build a reliable evaluator进行了相关的探讨分析，一句话结论的话，就是现在用大模型做评估器任重而道远，无论是如何提升可靠性，还是如何评估评估器方面，都需要继续完善，现有的评估器还是存在明显的不可靠和偏见，想用大模型做内容评估的，可以参考。

从文中的两个RAG的进展，我们可以从中找到一些思路。

一、mR2AG多模态RAG打榜思路用于VQA

多模态RAG的思路，可以看看《mR2AG: Multimodal Retrieval-Reflection-Augmented Generation for Knowledge-Based VQA》(https://arxiv.org/pdf/2411.15041，是个打榜的思路。

几个看点：

一个是针对VQA这个任务，目前的几种方式，如下：

典型的MLLMs使用图像I和问题Q作为输入，对于基于知识的问题提供有限的支持；简单的mRAG在所有情况下使用I、Q和检索到的内容P1、2、3作为输入，不可避免地引入了不相关的噪声；

mR2AG自适应地确定检索的必要性，并有效地定位有用的上下文，即对于Q2的P3。

所以看第二点，其实现思路，思想都在名称里《multimodal Retrieval-Reflection- Augmented Generation (mR2AG)》，如下图：

首先，检索-反思阶段，通过定义两个特殊标记[检索]/[不检索]，模型根据输入的图像和问题生成检索反射预测。如果预测结果为[不检索]，则直接生成答案；如果预测结果为[检索]，则调用检索器以辅助进一步的生成过程。

其次，相关性-反思阶段，将每个检索到的文章分成多个自然段落，并使用两个相关性反射标记[相关]/[不相关]来判断每个段落是否包含与问题相关的证据。如果段落被标记为[相关]，则继续生成答案。

其中判断是否相关，还是依赖于大模型自身能力，依旧走的蒸馏GPT4的路线，蒸馏方式简单快速：

最后，答案后处理阶段，这个是有意思的点，对于一个文章中可能存在的多个证据段落，通过层次化的后处理步骤对候选答案进行排序，综合考虑条目级、段落级和答案级的分数。

具体的，条目级别阶段检索分数衡量查询图像与候选维基百科条目的相似性。段落级别阶段生成相关性-反射标记的概率量化模型判断作为证据得分；答案级别阶段，计算生成答案序列中每个标记的概率，并使用几何平均归一化序列长度变化的影响，得出答案分；

这三个层次的分考虑了答案生成过程中的每一步，分别在入口、段落和答案层面评估候选答案的可靠性。通过计算这三个分数的乘积来整合它们的效果，这作为对候选答案进行排名的最终标准。模型根据这一标准输出得分最高的答案，但是，这样一来，需执行多次生成操作，是耗时的，所以，本质上，这个是投票思路。

二、G-RAG方案结合实体链接用于材料科学场景

关于GraphRAG进展，《G-RAG: Knowledge Expansion in Material Science》(https://arxiv.org/abs/2411.14592)，这个跟之前的GraphRAG的区别在于实体链接，使得使用实体提取器从文本中提取特定实体，然后将识别出的实体用于查询外部检索器，后者从维基百科知识库中获取相关的MatIDs及其对应的信息，从而保证准确性。

所以，重复下，这个工作的核心，就是实体链接的步骤，链接到图数据库，然后召回拿更多信息，即使用实体提取器（如Span Parser）从文本中提取特定实体，然后查询外部维基百科知识库以获取相关信息，思路如下：