也看引入反思的多模态mR2AG及实体链接为核心的G-RAG实现思路

文章转自公众号老刘说NLP

我们今天继续来关注RAG相关进展,目前热点集中于多模态RAG以及GraphRAG,关于这两块,我们已经讲了很多了。现在来看下最新的两个工作。

对了,对于大模型评估这块,社区成员有个工作《A Survey on LLM-as-a-Judge》(https://arxiv.org/abs/2411.15594),讨论了LLM-as-a-Judge的相关研究,并且围绕how to build a reliable evaluator进行了相关的探讨分析,一句话结论的话,就是现在用大模型做评估器任重而道远,无论是如何提升可靠性,还是如何评估评估器方面,都需要继续完善,现有的评估器还是存在明显的不可靠和偏见,想用大模型做内容评估的,可以参考。

从文中的两个RAG的进展,我们可以从中找到一些思路。

一、mR2AG多模态RAG打榜思路用于VQA

多模态RAG的思路,可以看看《mR2AG: Multimodal Retrieval-Reflection-Augmented Generation for Knowledge-Based VQA》(https://arxiv.org/pdf/2411.15041,是个打榜的思路。

几个看点:

一个是针对VQA这个任务,目前的几种方式,如下:

10e29fbbdb5c5d8a911e9b66e5679d7f.jpeg

典型的MLLMs使用图像I和问题Q作为输入,对于基于知识的问题提供有限的支持;简单的mRAG在所有情况下使用I、Q和检索到的内容P1、2、3作为输入,不可避免地引入了不相关的噪声;

mR2AG自适应地确定检索的必要性,并有效地定位有用的上下文,即对于Q2的P3。

所以看第二点,其实现思路,思想都在名称里《multimodal Retrieval-Reflection- Augmented Generation (mR2AG)》,如下图:

01ee1312ae1eac50507a3f352f9b1339.jpeg

首先,检索-反思阶段,通过定义两个特殊标记[检索]/[不检索],模型根据输入的图像和问题生成检索反射预测。如果预测结果为[不检索],则直接生成答案;如果预测结果为[检索],则调用检索器以辅助进一步的生成过程。

其次,相关性-反思阶段,将每个检索到的文章分成多个自然段落,并使用两个相关性反射标记[相关]/[不相关]来判断每个段落是否包含与问题相关的证据。如果段落被标记为[相关],则继续生成答案。

其中判断是否相关,还是依赖于大模型自身能力,依旧走的蒸馏GPT4的路线,蒸馏方式简单快速:

63655a808a0d18f463312400a535bfb7.jpeg

最后,答案后处理阶段,这个是有意思的点,对于一个文章中可能存在的多个证据段落,通过层次化的后处理步骤对候选答案进行排序,综合考虑条目级、段落级和答案级的分数。

具体的,条目级别阶段检索分数衡量查询图像与候选维基百科条目的相似性。段落级别阶段生成相关性-反射标记的概率量化模型判断作为证据得分;答案级别阶段,计算生成答案序列中每个标记的概率,并使用几何平均归一化序列长度变化的影响,得出答案分

bcb038165c9c6506d8c70246e8a9310c.jpeg

这三个层次的分考虑了答案生成过程中的每一步,分别在入口、段落和答案层面评估候选答案的可靠性。通过计算这三个分数的乘积来整合它们的效果,这作为对候选答案进行排名的最终标准。模型根据这一标准输出得分最高的答案,但是,这样一来,需执行多次生成操作,是耗时的,所以,本质上,这个是投票思路。

二、G-RAG方案结合实体链接用于材料科学场景

关于GraphRAG进展,《G-RAG: Knowledge Expansion in Material Science》(https://arxiv.org/abs/2411.14592),这个跟之前的GraphRAG的区别在于实体链接,使得使用实体提取器从文本中提取特定实体,然后将识别出的实体用于查询外部检索器,后者从维基百科知识库中获取相关的MatIDs及其对应的信息,从而保证准确性。

所以,重复下,这个工作的核心,就是实体链接的步骤,链接到图数据库,然后召回拿更多信息,即使用实体提取器(如Span Parser)从文本中提取特定实体,然后查询外部维基百科知识库以获取相关信息,思路如下:

a3632804c9efa2413bf6a2206d1d9dc9.jpeg

为了做这个事情,文档解析思路,将内容分类为文本、图表和表格。对于图表提取,使用Phi-3.5 Vision Instruct模型,表格数据提取使用Microsoft的Table Transformer,这个用于建库。

cb39f734bcc5a275220ae712b501c882.jpeg

对于图片的分类归属,也有分类链接;

03834cd0e0e8c93e4f723455da71514b.jpeg

解析之后,在检索阶段,则进行实体链接和关系抽取,这块的思路是,将文本中的模糊提及映射到知识库中的特定命名实体,关系提取(RE)识别和分类文本中提到的实体之间的语义关系。

1eb327ff9b591f80adf14601256235ce.jpeg

至于为什么要进行关系抽取,初衷是关系抽取之后,能够用于提升实体链接准确性,因为可以补充外部特征;另外,在进行检索阶段,可以利用这个关系,将相关的内容进行召回。

参考文献

1、https://arxiv.org/pdf/2411.15041

2、https://arxiv.org/abs/2411.14592


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值