大模型RAG应用开发之PDF解析工具对比

一 汇总

类型 名称 地址 OCR 提取表格内容 保留文本顺序 提取图片 保存成md格式 其他特性
传统PDF解析库 pymupdf https://github.com/pymupdf/PyMuPDF ✔️ ✔️ ✔️ ● 表格提取
● 自定义字体
传统PDF解析库 pdfminer https://github.com/pdfminer/pdfminer.six ✔️ ● 版面分析
传统PDF解析库 pdfplumber https://github.com/jsvine/pdfplumber ✔️ ● 表格提取,但存在丢失列的问题
传统PDF解析库 pypdf2 https://github.com/py-pdf/pypdf ✔️ ● pdf合并与拆分
● 添加水印
基于模型的PDF解析一体库 llama-parse https://github.com/run-llama/llama_parse ✔️ ✔️ ✔️ ✔️ ✔️
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值