MinerU PDF 文档提取 Demo (PDF解析)
说明:
- 首次发表日期:2024-07-17
- MinerU 官方仓库: https://github.com/opendatalab/MinerU
- MinerU 官方中文README: https://github.com/opendatalab/MinerU/blob/master/README_zh-CN.md
官方介绍
Magic-PDF 是一款将 PDF 转化为 markdown 格式的工具。支持转换本地文档或者位于支持S3协议对象存储上的文件。
主要功能包含
- 支持多种前端模型输入
- 删除页眉、页脚、脚注、页码等元素
- 符合人类阅读顺序的排版格式
- 保留原文档的结构和格式,包括标题、段落、列表等
- 提取图像和表格并在markdown中展示
- 将公式转换成latex
- 乱码PDF自动识别并转换
- 支持cpu和gpu环境
- 支持windows/linux/mac平台
创建Conda环境并安装包
conda create -n py310torch python=3.10
conda activate py310torch
pip install --force-reinstall torch==2.3.1 torchvision==0.18.1 --index-url https://download.pytorch.org/whl/cu121
# MinerU
## https://github.com/opendatalab/MinerU/blob/master/README_zh-CN.md
pip install magic-pdf[full-cpu]
pip install detectron2 --extra-index-url https://myhloli.github.io/wheels/
下载权重并配置
# 安装依赖
pip install