【免费下载】 MinerU项目命令行工具使用指南

最新推荐文章于 2025-09-03 00:58:32 发布

原创最新推荐文章于 2025-09-03 00:58:32 发布 · 554 阅读 ·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

MinerU项目命令行工具使用指南

【免费下载链接】MinerU A high-quality tool for convert PDF to Markdown and JSON.一站式开源高质量数据提取工具，将PDF转换成Markdown和JSON格式。项目地址: https://gitcode.com/gh_mirrors/mi/MinerU

MinerU项目提供了一个名为magic-pdf的强大命令行工具，用于从PDF、PPT、Word文档以及图片中提取结构化内容。本文将详细介绍该工具的各项功能和使用方法。

基本命令结构

magic-pdf命令的基本语法如下：

magic-pdf [OPTIONS]

主要参数详解

必需参数

输入路径参数 (-p/--path)
- 指定待处理的文件或目录路径
- 支持的文件类型包括：PDF、PPT、PPTX、DOC、DOCX、PNG、JPG
- 示例：-p /path/to/your/file.pdf
输出目录参数 (-o/--output-dir)
- 指定处理结果的保存目录
- 示例：-o /path/to/output/directory

可选参数

处理方法 (-m/--method)
- 提供三种内容提取方法：
  - ocr：使用OCR技术从PDF中提取信息，适用于扫描版PDF
  - txt：仅适用于纯文本PDF，性能优于OCR
  - auto：自动选择最佳方法（默认值）
语言设置 (-l/--lang)
- 指定文档语言以提高OCR识别准确率
- 支持多种语言，使用语言缩写（如"en"表示英语，"zh"表示中文）
调试模式 (-d/--debug)
- 启用详细调试信息
- 示例：-d true
页面范围控制
- -s/--start：指定起始页码（从0开始）
- -e/--end：指定结束页码（从0开始）

使用示例

查看版本信息：

magic-pdf -v

基本使用示例：

magic-pdf -p document.pdf -o output_dir -m auto

处理特定页面范围：

magic-pdf -p document.pdf -o output_dir -s 5 -e 10

输出文件说明

处理完成后，输出目录将包含以下文件：

文件名.md：提取内容的Markdown格式文件
images/：文档中提取的图片存储目录
文件名_layout.pdf：文档布局示意图
文件名_middle.json：MinerU中间处理结果
文件名_model.json：模型推理结果
文件名_origin.pdf：原始PDF文件副本
文件名_spans.pdf：最小粒度边界框位置信息图
文件名_content_list.json：按阅读顺序排列的富文本JSON

使用建议

对于扫描版PDF或包含大量图片的文档，建议使用-m ocr参数
对于纯文本PDF，使用-m txt可以获得更好的性能和准确性
如果文档包含特定语言内容，使用-l参数指定语言可显著提高OCR识别率
处理大型文档时，可以使用页面范围参数只处理需要的部分

注意事项

确保输入文件具有以下扩展名之一：
- .pdf, .png, .jpg
- .ppt, .pptx, .doc, .docx
输出目录需要有写入权限
处理大型文档或高分辨率图片时，可能需要较多内存和较长的处理时间

通过掌握这些命令行参数的使用方法，您可以充分利用MinerU项目的文档处理能力，高效地从各种文档格式中提取结构化内容。

【免费下载链接】MinerU A high-quality tool for convert PDF to Markdown and JSON.一站式开源高质量数据提取工具，将PDF转换成Markdown和JSON格式。项目地址: https://gitcode.com/gh_mirrors/mi/MinerU

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。