MinerU使用

  •  什么是MinerU:

MinerU 专注于高效解析和提取复杂的 PDF 文档、网页和电子书,并将其转换为易于分析的 Markdown 或JSON 格式。由 上海人工智能实验室OpenDataLab 团队 开发。
主要功能包括:
• PDF 转 Markdown
支持多模态 PDF(含图片、表格、公式等)的结构化转换。
自动去除页眉、页脚、脚注等干扰信息,保留标题、段落、列表等结构。
公式识别并转换为 LaTeX 格式,表格转换为 HTML 或 Markdown。
• 网页内容提取:从网页中剔除广告等干扰信息,精准提取正文、评论、视频文字等内容。
• 电子书转换:支持 epub、mobi、docx、pptx、chm、azw 等格式批量转 Markdown。
• 多语言 OCR:自动检测扫描版 PDF 和乱码,支持 84 种语言 的 OCR 识别

在线使用:https://mineru.net/OpenSourceTools/Extractor

客户端:https://mineru.net/client

API:https://mineru.net/apiManage

  • MinerU使用(私有化部署)

Step1,安装magic-pdf

pip install -U "magic-pdf[full]"

Step2, 下载依赖的models

使用modelscope快速下载各种models

python download_models.py

Step3,推理pdf

magic-pdf pdf-command --pdf "file name" --inside_model true --model_mode full

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值