【亲测免费】 PDF Craft 使用教程-优快云博客

PDF Craft 使用教程

【免费下载链接】pdf-craft PDF craft can convert PDF files into various other formats. This project will focus on processing PDF files of scanned books. The project has just started. 项目地址: https://gitcode.com/gh_mirrors/pd/pdf-craft

1. 项目介绍

PDF Craft 是一个开源项目，旨在将 PDF 文件转换为其他格式，特别是针对扫描书籍的 PDF 文件。该项目利用 DocLayout-YOLO、OnnxOCR 和 layoutreader 等本地可执行的 AI 模型，可以将 PDF 文件转换为 Markdown 或 EPUB 格式。Markdown 格式适合于论文或小型书籍，而 EPUB 格式则更适合解析超过 100 页的书籍。

2. 项目快速启动

环境准备

Python 3.10 或更高版本（推荐 3.10.16）
安装必要的 Python 包

pip install pdf-craft
pip install onnxruntime==1.21.0

如果需要使用 GPU 加速，请确保设备支持 CUDA 环境，并安装相应的 onnxruntime-gpu 包。

转换 PDF 为 Markdown

from pdf_craft import PDFPageExtractor, MarkDownWriter

extractor = PDFPageExtractor(
    device="cpu",  # 如果使用 GPU，请修改为 device="cuda:0"
    model_dir_path="/path/to/model/dir/path"  # AI 模型下载和安装的文件夹地址
)

with MarkDownWriter(markdown_path, "images", "utf-8") as md:
    for block in extractor.extract(pdf="/path/to/pdf/file"):
        md.write(block)

执行完成后，会在指定路径生成一个 *.md 文件。如果原始 PDF 中包含插图（或表格、公式），将在 *.md 文件同级创建一个 assets 目录来保存图片。

转换 PDF 为 EPUB

首先，创建一个 PDFPageExtractor 对象。

from pdf_craft import PDFPageExtractor

extractor = PDFPageExtractor(
    device="cpu",  # 如果使用 GPU，请修改为 device="cuda:0"
    model_dir_path="/path/to/model/dir/path"  # AI 模型下载和安装的文件夹地址
)

接着，配置 LLM 对象。这里推荐使用 DeepSeek。

from pdf_craft import LLM

llm = LLM(
    key="sk-XXXXX",  # 由 LLM 提供商提供的 key
    url="https://api.deepseek.com",  # 由 LLM 提供商提供的 URL
    model="deepseek-chat",  # 由 LLM 提供商提供的模型
    token_encoding="o200k_base"  # 用于标记估计的本地模型名称（与 LLM 无关，如果不关心，保持 "o200k_base"）
)

然后，开始扫描和分析 PDF 书籍。

from pdf_craft import analyse

analyse(
    llm=llm,
    pdf_page_extractor=extractor,
    pdf_path="/path/to/pdf/file",
    analysing_dir_path="/path/to/analysing/dir",
    output_dir_path="/path/to/output/files"
)

最后，使用分析结果生成 EPUB 文件。

from pdf_craft import generate_epub_file

generate_epub_file(
    from_dir_path=output_dir_path,
    epub_file_path="/path/to/output/epub"
)

3. 应用案例和最佳实践

案例一：将扫描的书籍从 PDF 转换为 EPUB 格式，便于在电子设备上阅读。
案例二：将 PDF 格式的学术文章转换为 Markdown 格式，便于在 GitHub 上分享和讨论。

最佳实践：

在处理大量书籍时，建议使用 GPU 加速以提高处理速度。
对于扫描质量较差的 PDF 文件，可以通过多次 OCR 识别来提高识别质量。

4. 典型生态项目

目前 PDF Craft 项目的生态还处于起步阶段，但以下是一些可能的生态项目方向：

开发 Web 界面，使非技术用户也能轻松转换 PDF 文件。
为项目添加更多的输出格式，如 Word、HTML 等。
创建一个在线服务，允许用户上传 PDF 文件并获取转换结果。

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考