今天我们来谈谈2个问题,一个是RAG如何应用于全局摘要问答类问题,另一个是最近所关注的图表理解问题,尤其是图表信息抽取,引发了关于大模型是否真正理解图表的疑问,大家可以看看。
问题1:RAG如何应用于全局摘要问答类问题
我们先来看一类问题,RAG无法回答针对整个文本语料库的全局性问题,例如"数据集中的主要主题是什么?",因为这本质上是一个以查询为重点的摘要(QFS)任务,而不是一个明确的检索任务。
很自然的,这类问题,我们实现做多个聚类,然后建立索引,最后根据query,找到对应的若干个聚类文本,最终再做summary合并即可。
因此,这就涉及到聚类的实现以及类簇的选择两个问题。
《From Local to Global: A Graph RAG Approach to Query-Focused Summarization》(https://arxiv.org/pdf/2404.16130) 这个工作给出了一个思路。使用大型语言模型(LLM)构建了一个基于图的文本索引,从源文件生成实体知识图,然后为所有相关实体组生成摘要。给定一个问题,每个摘要用于生成部分回答,然后所有部分回答再次总结为最终答案。
其核心在于,使用LLM分两个阶段建立基于图Graph的文本索引及查询回复:
在index time阶段,首先从源文档中导出实体知识图,然后为所有密切相关的实体组预先生成社区摘要,也就是图中的从source Documents到切分为额Text Chunks,再处理成元素摘要,为啥用图,这个图作为语义内容组织的锚,其可以以较为细粒度的方式进行表示,这是其一,其二是基于图之后,还可进一步利用社区检测算法做图上的二次聚类,让聚类显得具有层次感,并且在边上还可以有权重。

其中:
在Source Documen

本文探讨了RAG如何解决全局摘要问答类问题,通过建立基于图的文本索引,实现从局部到全局的问答。同时,文章提出了对多模态大模型理解图表能力的质疑,指出模型可能存在过度拟合和幻觉问题,认为图表理解任务本质上可能是OCR问题。
最低0.47元/天 解锁文章
1002






