MinerU PDF 文档提取 Demo (PDF解析)

MinerU PDF 文档提取 Demo (PDF解析)

说明:

  • 首次发表日期:2024-07-17
  • MinerU 官方仓库: https://github.com/opendatalab/MinerU
  • MinerU 官方中文README: https://github.com/opendatalab/MinerU/blob/master/README_zh-CN.md

官方介绍

Magic-PDF 是一款将 PDF 转化为 markdown 格式的工具。支持转换本地文档或者位于支持S3协议对象存储上的文件。

主要功能包含

  • 支持多种前端模型输入
  • 删除页眉、页脚、脚注、页码等元素
  • 符合人类阅读顺序的排版格式
  • 保留原文档的结构和格式,包括标题、段落、列表等
  • 提取图像和表格并在markdown中展示
  • 将公式转换成latex
  • 乱码PDF自动识别并转换
  • 支持cpu和gpu环境
  • 支持windows/linux/mac平台

创建Conda环境并安装包

conda create -n py310torch python=3.10
conda activate py310torch
pip install --force-reinstall torch==2.3.1 torchvision==0.18.1 --index-url https://download.pytorch.org/whl/cu121

# MinerU
## https://github.com/opendatalab/MinerU/blob/master/README_zh-CN.md
pip install magic-pdf[full-cpu]
pip install detectron2 --extra-index-url https://myhloli.github.io/wheels/

下载权重并配置

# 安装依赖
pip install 
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值