大模型RAG应用开发之PDF解析工具对比

最新推荐文章于 2025-04-07 11:37:24 发布

深度学习机器

最新推荐文章于 2025-04-07 11:37:24 发布

阅读量946

点赞数 7

分类专栏： RAG 大语言模型优质项目文章标签： pdf 人工智能 AIGC

本文链接：https://blog.youkuaiyun.com/qq_33137873/article/details/141536658

版权

一汇总

类型	名称	地址	OCR	提取表格内容	保留文本顺序	提取图片	保存成md格式	其他特性
传统PDF解析库	pymupdf	https://github.com/pymupdf/PyMuPDF	❌	✔️	✔️	✔️	❌	● 表格提取 ● 自定义字体
传统PDF解析库	pdfminer	https://github.com/pdfminer/pdfminer.six	❌	❌	✔️	❌	❌	● 版面分析
传统PDF解析库	pdfplumber	https://github.com/jsvine/pdfplumber	❌	✔️	❌	❌	❌	● 表格提取，但存在丢失列的问题
传统PDF解析库	pypdf2	https://github.com/py-pdf/pypdf	❌	❌	✔️	❌	❌	● pdf合并与拆分 ● 添加水印
基于模型的PDF解析一体库	llama-parse	https://github.com/run-llama/llama_parse	✔️	✔️	✔️	✔️	✔️