.01
概述
在信息驱动的时代,基于图的RAG(Graph RAG)正迅速成为一种强大的工具,超越了传统依赖向量存储的RAG应用。它不仅提供语义相似性检索,更具备强大的推理能力。例如,向量存储能轻松回答“XYZ公司去年的CFO是谁?”这种基于显式信息的问题,但对于“XYZ公司哪两位董事毕业于同一所学校?”这样需要隐式推理的问题,图RAG更胜一筹。
但问题在于,如何构建图数据库以支持这种高级检索?更进一步,如何从复杂的年报中提取信息,为图数据库的构建铺平道路?
本文将重点探讨年报信息的提取与转化,尤其是如何将PDF转化为Markdown这一工程关键环节。
.02
PDF转化为富文本:选择正确的工具
PDF是信息存储的常见格式,但年报中不仅有文本,还包括图表、表格等关键信息。如何高效、准确地将这些内容转化为结构化的富文本,直接决定了后续数据处理和图数据库构建的质量。
常用PDF处理工具评测
1) PyPDF2
对于大多数Python程序员来说,PyPDF2可能是处理PDF的首选工具。它的主要优势是快速、轻量化。然而,它的缺点也很明显:提取的内容缺乏结构性,没有区分标题、列表或表格,这使得后续处理变得复杂。
2) PyMuPDF4LLM
PyMuPDF4LLM是一个将PDF直接转换为Markdown的工具,且保留了文本的结构信息。Markdown格式的文本因其内嵌的层次信息,被Langchain等框架广泛支持。这种格式不仅方便分块处理,还为数据存储和检索提供了更多维度的信息。
然而,PyMuPDF4LLM在处理表格时表现不佳,提取结果往往与原始表格大相径庭。
3) Dockling
Dockling由IBM Deep Search团队开发,它在提取PDF内容方面表现出色,尤其是在保留表格信息和文档结构方面。Dockling生成的Markdown包含占位符以标记图片,并且准确保留了层级标题和表格信息,这对创建块结构和图数据库非常有帮助。
4) Marker
Marker是另一个优秀的Markdown提取工具,在处理表格和复杂文档时与Dockling不相上下。但性能和速度稍逊一筹。
.03
性能比较:四种工具的优劣势
为了更直观地比较这些工具,我们选取了包含文本、表格和图片的年报片段,并测试了它们在不同页数PDF上的处理速度。
测试结果
分析与选择
在性能和提取质量之间存在显著权衡:
- 如果速度是首要考虑因素,PyPDF2 是最佳选择,但需额外处理提取内容的结构化问题。
- 如果需要高质量的表格和结构信息,Dockling 是最优解,尽管其速度偏慢。
对于我们的年报处理项目,每份年报约300页,使用Dockling处理50份年报需耗时17小时。如果扩展到S&P500企业过去30年的年报(假设每年一份),单线程处理将耗时208天。
.04
如何解决性能瓶颈
并行化处理与云服务
为了应对大规模文档处理需求,我们开发了一个云服务,将PDF转化工作分布到多个并行进程中。
- 并行处理:将年报分块到多个处理节点,利用云计算资源显著提升效率。
- 动态扩展:根据项目规模调整并行任务的数量,实现弹性扩展。
这种方式不仅解决了单线程的速度限制,还为项目未来的扩展提供了可行路径。
.05
最终解决方案:PDF到Markdown的转化策略
结合以上测试结果与性能优化方案,我们的最终工作流程如下:
- 使用Dockling提取PDF内容为Markdown,确保表格和结构信息的完整性。
- 将Markdown文件按逻辑分块,为图数据库构建提供更优质的数据源。
- 通过并行化的云服务加速处理,满足大规模数据处理需求。
.06
结语
从PDF到Markdown的转化是构建图RAG的第一步,而选择合适的工具则是实现高质量数据提取的关键。尽管Dockling在速度上存在劣势,但其卓越的提取质量使其成为优选工具。通过并行处理,我们克服了性能瓶颈,为构建更智能、更高效的RAG系统奠定了坚实基础。
未来,随着技术的进一步发展,PDF转化工具的性能和准确性有望进一步提升。到那时,Graph RAG的构建过程将更加高效,为AI领域带来更多创新应用。
如何学习AI大模型?
大模型时代,火爆出圈的LLM大模型让程序员们开始重新评估自己的本领。 “AI会取代那些行业?
”“谁的饭碗又将不保了?
”等问题热议不断。
不如成为「掌握AI工具的技术人」
,毕竟AI时代,谁先尝试,谁就能占得先机!
想正式转到一些新兴的 AI 行业,不仅需要系统的学习AI大模型。同时也要跟已有的技能结合,辅助编程提效,或上手实操应用,增加自己的职场竞争力。
但是LLM相关的内容很多,现在网上的老课程老教材关于LLM又太少。所以现在小白入门就只能靠自学,学习成本和门槛很高
那么我作为一名热心肠的互联网老兵,我意识到有很多经验和知识值得分享给大家,希望可以帮助到更多学习大模型的人!至于能学习到多少就看你的学习毅力和能力了 。我已将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
这份完整版的大模型 AI 学习资料已经上传优快云,朋友们如果需要可以微信扫描下方优快云官方认证二维码免费领取【保证100%免费
】
👉 福利来袭
优快云大礼包:《2025最全AI大模型学习资源包》免费分享,安全可点 👈
全套AGI大模型学习大纲+路线
AI大模型时代的学习之旅:从基础到前沿,掌握人工智能的核心技能!
640套AI大模型报告合集
这套包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。
👉学会后的收获:👈
• 基于大模型全栈工程实现(前端、后端、产品经理、设计、数据分析等),通过这门课可获得不同能力;
• 能够利用大模型解决相关实际项目需求: 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求;
• 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;
• 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习框架等技术,这些技术的掌握可以提高程序员的编码能力和分析能力,让程序员更加熟练地编写高质量的代码。
👉 福利来袭
优快云大礼包:《2025最全AI大模型学习资源包》免费分享,安全可点 👈
这份完整版的大模型 AI 学习资料已经上传优快云,朋友们如果需要可以微信扫描下方优快云官方认证二维码免费领取【保证100%免费
】
作为普通人,入局大模型时代需要持续学习和实践,不断提高自己的技能和认知水平,同时也需要有责任感和伦理意识,为人工智能的健康发展贡献力量。