- 什么是MinerU:
MinerU 专注于高效解析和提取复杂的 PDF 文档、网页和电子书,并将其转换为易于分析的 Markdown 或JSON 格式。由 上海人工智能实验室OpenDataLab 团队 开发。
主要功能包括:
• PDF 转 Markdown
支持多模态 PDF(含图片、表格、公式等)的结构化转换。
自动去除页眉、页脚、脚注等干扰信息,保留标题、段落、列表等结构。
公式识别并转换为 LaTeX 格式,表格转换为 HTML 或 Markdown。
• 网页内容提取:从网页中剔除广告等干扰信息,精准提取正文、评论、视频文字等内容。
• 电子书转换:支持 epub、mobi、docx、pptx、chm、azw 等格式批量转 Markdown。
• 多语言 OCR:自动检测扫描版 PDF 和乱码,支持 84 种语言 的 OCR 识别
在线使用:https://mineru.net/OpenSourceTools/Extractor
API:https://mineru.net/apiManage
- MinerU使用(私有化部署)
Step1,安装magic-pdf
pip install -U "magic-pdf[full]"
Step2, 下载依赖的models
使用modelscope快速下载各种models
python download_models.py
Step3,推理pdf
magic-pdf pdf-command --pdf "file name" --inside_model true --model_mode full
1211

被折叠的 条评论
为什么被折叠?



