RAG 高级应用：基于 Nougat、HTML 转换与 GPT-4o 解析复杂 PDF 内嵌表格

原创

已于 2024-05-29 21:54:51 修改 · 3.3k 阅读

49 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能 #RAG高级检索 #PDF解析 #GPT-4o

于 2024-05-29 21:53:45 首次发布

一、前言

RAG（检索增强生成）应用最具挑战性的方面之一是如何处理复杂文档的内容，例如 PDF 文档中的图像和表格，因为这些内容不像传统文本那样容易解析和检索。前面我们有介绍过如何使用 LlamaIndex 提供的 LlamaParse 技术解析复杂PDF文档（文档中包含图片和表格）LlamaParse 技术整体来看，对于PDF文档常规文本的提取还是比较准确的，但对于表格内容的处理，检索准确率依然还存在比较大的空间，是否还有其它更好的方案来解决呢，今天我们来继续介绍几种与嵌入式表格相关的 RAG 策略，剖析文档解析和检索的技术细节，同时提供一些代码示例以便大家更好地理解其原理。此外，本文还将分析和比较这些策略的优缺点。

在正式开始之前，为了让新关注的小伙伴更全面地理解和应用RAG技术，我把之前写过的一些 RAG 技术相关的文章按照从基础到高级的顺序梳理了一个目录指引，方便大家循序渐进地快速了解 RAG 的精髓。

1.1、RAG 技术发展趋势：

《RAG 2.0》：RAG 技术迎来2.0时代！这篇文章介绍了新一代企业级AI系统RAG 2.0，它通过端到端优化语言模型和检索器，全面提升了传统RAG系统的性能，并在多个领域取得了突破性进展。想了解RAG技术的最新发展方向？这篇文章不容错过！

1.2、RAG 核心原理和关键技术：

《智能模型新篇章：RAG + Fine-Tuning 混合增强策略》

如何让大模型既博学又专精？这篇文章深入探讨了如何结合RAG和微调技术，让语言模型在特定领域表现更出色，并详细介绍了两种混合增强策略：RAFT 和 RoG，为构建更强大的AI系统提供了新的思路。

《RelayAttention：让大型语言模型更高效地处理长提示符》

大模型处理长文本效率低？这篇文章介绍了一种名为 RelayAttention 的全新注意力机制，它通过减少内存访问冗余，显著提升了大模型处理长文本的效率，让AI更“快”一步。

1.3、RAG 技术应用和实践：

《RankLLM：RAG架构下通过重排序实现精准信息检索》

如何让RAG系统找到最精准的答案？这篇文章介绍了一种基于大型语言模型的重排序方法 RankLLM，无需训练数据即可提升信息检索的精度，为构建高效RAG系统提供了新的思路。

《高级RAG检索中的五种查询重写策略》

如何让大模型更好地理解用户的提问？这篇文章介绍了五种查询重写策略（包括子问题查询、HyDE 查询转换、Query2doc、回溯提示和迭代检索生成），帮助你优化RAG系统中的信息检索过程，让AI更“懂”你。

《spRAG：一个处理密集非结构化文本复杂检索的 RAG 框架》

面对海量文本，如何精准定位关键信息？这篇文章介绍了专门处理密集非结构化文本的RAG框架 spRAG，它采用 AutoContext 和 RSE 技术，显著提升了处理复杂查询的准确性。

《LlamaParse：RAG中高效解析复杂PDF的最佳选择》

PDF文档解析难题如何解决？这篇文章介绍了高效的PDF解析技术 LlamaParse，它能够轻松处理复杂PDF文档（包含文本、图像和表格）的检索和上下文理解难题，并与LlamaIndex框架无缝集成，让信息提取更轻松。

1.4、特定领域RAG应用：

《RAFT：让大型语言模型更擅长特定领域的 RAG 任务》

如何让大模型在特定领域更专业？这篇文章介绍了一种名为 RAFT 的微调技术，它将RAG与特定领域的微调相结合，让大模型在特定领域的应用中表现更出色。

《特定领域 RAG 新突破：LlamaPack 实现 RAFT 论文方法》

想轻松创建特定领域RAG数据集？这篇文章介绍了如何使用 LlamaIndex 和 LlamaPack 来实现 RAFT 论文中的方法，简化数据集创建过程，让特定领域RAG应用开发更便捷。

《RAGFlow：基于OCR和文档解析的下一代 RAG 引擎》

想体验功能强大的开源RAG引擎？这篇文章介绍了 RAGFlow，它基于深度文档理解技术，支持多种格式的文档处理，并提供可视化界面和人工干预功能，为构建高效RAG系统提供了新的选择。

二、解析和检索嵌入式表格

解析 PDF 文件中的嵌入式表格一直是一项非常有挑战的技术。这是因为 PDF 文件中的表格可能使用不同的编码和字体，甚至可能以图像的形式存在，需要 OCR（光学字符识别）技术才能识别。此外，PDF 文件中的表格具有复杂的格式和布局，包括合并单元格、嵌套表格和多列布局，这使得表格数据的识别和提取变得复杂。复杂的表格结构、跨越多页的表格和不一致性进一步增加了解析的难度。

在正确解析表格内容后，RAG 应用还需要根据解析的内容理解表格，包括表格中每个字段的含义和结构以及整个表格所代表的整体含义。只有这样，应用才能根据用户的查询检索相应的表格内容，使 LLM（大语言模型）能够更好地回答用户问题。