论文信息
论文题目:HybridRAG: Integrating Knowledge Graphs and Vector Retrieval Augmented Generation for Efficient Information Extraction
论文作者:Bhaskarjit Sarmah - NVIDA
论文链接:https://arxiv.org/pdf/2408.04948
文章领域:RAG, Knowledge Graph,
研究背景与动机
问题背景
-
金融文档的复杂性: 财报电话会议记录、新闻文章等非结构化数据包含专业术语、多格式数据和复杂上下文关系,传统方法难以有效提取信息。
-
LLM的局限性: 预训练大语言模型(LLM)在领域外数据上易产生“幻觉”(Hallucination),且无法处理金融文档中的层次化结构和动态更新内容。
-
现有RAG技术的不足:
-
VectorRAG: 基于向量数据库的段落分块检索可能丢失关键上下文,尤其在结构化信息(如财务报表)中表现欠佳。
-
GraphRAG: 基于知识图谱的检索擅长实体关系推理,但在抽象问答(无显式实体提及)中效果较差。
-
研究动机
开发一种混合框架(HybridRAG),通过结合VectorRAG的语义检索能力和GraphRAG的结构化推理能力,提升金融文档问答系统的准确性和鲁棒性。
现有技术对比
方法 | 优点 | 缺点 |
---|---|---|
VectorRAG | 长上下文支持,适合语义相似性检索 | 忽略结构化关系,检索精度受限 |
GraphRAG | 结构化推理,实体关系明确 | 依赖显式实体,抽象问答能力弱 |
本文贡献
-
HybridRAG框架: 首次提出结合VectorRAG与GraphRAG的方法,通过上下文拼接实现互补。
-
金融领域专用数据集: 构建基于Nifty 50公司财报电话记录的问答数据集(含400对真实问答),填补公开数据空白。
-
系统性评估: 引入多维度指标(Faithfulness、Answer Relevance等),分离检索与生成阶段的性能分析。
HybridRAG 框架
HybridRAG分为三个核心模块:
-
VectorRAG:
- 文档处理: 使用递归字符分块(1024字符,无重叠),通过OpenAI text-embedding-ada-002生成向量,存储于Pinecone数据库。
- 检索与生成: 基于LangChain框架,检索Top-4相关段落,输入GPT-3.5-Turbo生成答案。
-
GraphRAG:
- 知识图谱构建:
- 知识抽取: 两阶段LLM链(内容精炼+信息提取),识别实体(如公司、财务指标)及关系(如“公司-收入-季度”)。
- 知识优化: 实体消歧、知识融合,存储为三元组(节点11405,边13883)。
- 检索与生成: 基于NetworkX图遍历(深度优先搜索,深度=1),结合GPT-3.5-Turbo生成答案。
- 知识图谱构建:
-
HybridRAG:
- 上下文拼接: 将VectorRAG和GraphRAG的检索结果按顺序拼接,输入LLM生成最终答案。
关键技术细节
- 知识图谱构建的提示工程: 通过定制化提示模板生成结构化三元组(格式:[h, type, r, o, type, metadata]),增强实体关系表达。
- 元数据增强: 在VectorRAG和GraphRAG中显式添加文档元数据(如公司名称、季度),提升检索相关性。
实验设计与评估
数据集
-
来源: 印度Nifty 50指数成分股2023年Q1财报电话记录(50家公司,约60,000词/文档)。
-
问答对: 人工标注400对真实问答,覆盖基础设施、医疗、金融等多个领域。
评估指标
指标 | 定义 | 计算方式 |
---|---|---|
Faithfulness | 生成答案与上下文的支持程度 | 支持陈述数 / 总陈述数 |
Answer Relevance | 答案与问题的相关性(非事实性) | 生成问题与原问题的余弦相似度均值 |
Context Precision | Top-K检索结果中相关段落占比 | 加权精确率(基于段落排序) |
Context Recall | 真实答案句子在检索结果中的覆盖率 | 覆盖句子数 / 总句子数 |
实验配置
- 模型: GPT-3.5-Turbo(Temperature=0)。
- 工具: LangChain、Pinecone、NetworkX、RAGAS评估框架。
结果分析
性能对比
关键发现
- HybridRAG综合最优: 在Faithfulness和Answer Relevance上表现最佳,且Context Recall达1.0,表明其检索全面性。
- GraphRAG的结构化优势: Context Precision最高(0.96),验证知识图谱在精准检索中的价值。
- HybridRAG的权衡: 因拼接上下文引入噪声,Context Precision略低(0.79),但生成质量显著提升。
结论与未来工作
HybridRAG通过融合向量检索与知识图谱,显著提升了金融文档问答系统的性能,尤其在复杂信息提取任务中表现突出。
未来方向
- 多模态扩展: 整合数值数据(如财务报表表格)与文本信息。
- 动态知识更新: 适应金融市场的实时数据流。
- 评估指标优化: 开发更细粒度的金融领域评估标准(如数值准确性)。
潜在问题
- 上下文拼接策略: 简单的顺序拼接可能导致LLM偏向后段内容(如GraphRAG部分),需探索更优的融合机制(如加权或注意力机制)。
- 知识图谱维护成本: 金融数据的动态性要求持续更新图谱,可能增加计算和存储开销。
- 泛化能力验证: 实验仅限金融领域,需在更多领域(如医疗、法律)验证有效性。
- 长上下文生成: HybridRAG输入上下文较长(Vector+Graph),可能超出LLM的窗口限制,需研究高效压缩方法。
参考资料
1.更强的RAG:向量数据库和知识图谱的结合
合集 https://www.cnblogs.com/hohoa/p/18456986