PDF Craft 使用教程

PDF Craft 使用教程

pdf-craft PDF craft can convert PDF files into various other formats. This project will focus on processing PDF files of scanned books. The project has just started. pdf-craft 项目地址: https://gitcode.com/gh_mirrors/pd/pdf-craft

1. 项目介绍

PDF Craft 是一个开源项目,旨在将 PDF 文件转换为其他格式,特别是针对扫描书籍的 PDF 文件。该项目利用 DocLayout-YOLO、OnnxOCR 和 layoutreader 等本地可执行的 AI 模型,可以将 PDF 文件转换为 Markdown 或 EPUB 格式。Markdown 格式适合于论文或小型书籍,而 EPUB 格式则更适合解析超过 100 页的书籍。

2. 项目快速启动

环境准备

  • Python 3.10 或更高版本(推荐 3.10.16)
  • 安装必要的 Python 包
pip install pdf-craft
pip install onnxruntime==1.21.0

如果需要使用 GPU 加速,请确保设备支持 CUDA 环境,并安装相应的 onnxruntime-gpu 包。

转换 PDF 为 Markdown

from pdf_craft import PDFPageExtractor, MarkDownWriter

extractor = PDFPageExtractor(
    device="cpu",  # 如果使用 GPU,请修改为 device="cuda:0"
    model_dir_path="/path/to/model/dir/path"  # AI 模型下载和安装的文件夹地址
)

with MarkDownWriter(markdown_path, "images", "utf-8") as md:
    for block in extractor.extract(pdf="/path/to/pdf/file"):
        md.write(block)

执行完成后,会在指定路径生成一个 *.md 文件。如果原始 PDF 中包含插图(或表格、公式),将在 *.md 文件同级创建一个 assets 目录来保存图片。

转换 PDF 为 EPUB

首先,创建一个 PDFPageExtractor 对象。

from pdf_craft import PDFPageExtractor

extractor = PDFPageExtractor(
    device="cpu",  # 如果使用 GPU,请修改为 device="cuda:0"
    model_dir_path="/path/to/model/dir/path"  # AI 模型下载和安装的文件夹地址
)

接着,配置 LLM 对象。这里推荐使用 DeepSeek。

from pdf_craft import LLM

llm = LLM(
    key="sk-XXXXX",  # 由 LLM 提供商提供的 key
    url="https://api.deepseek.com",  # 由 LLM 提供商提供的 URL
    model="deepseek-chat",  # 由 LLM 提供商提供的模型
    token_encoding="o200k_base"  # 用于标记估计的本地模型名称(与 LLM 无关,如果不关心,保持 "o200k_base")
)

然后,开始扫描和分析 PDF 书籍。

from pdf_craft import analyse

analyse(
    llm=llm,
    pdf_page_extractor=extractor,
    pdf_path="/path/to/pdf/file",
    analysing_dir_path="/path/to/analysing/dir",
    output_dir_path="/path/to/output/files"
)

最后,使用分析结果生成 EPUB 文件。

from pdf_craft import generate_epub_file

generate_epub_file(
    from_dir_path=output_dir_path,
    epub_file_path="/path/to/output/epub"
)

3. 应用案例和最佳实践

  • 案例一:将扫描的书籍从 PDF 转换为 EPUB 格式,便于在电子设备上阅读。
  • 案例二:将 PDF 格式的学术文章转换为 Markdown 格式,便于在 GitHub 上分享和讨论。

最佳实践:

  • 在处理大量书籍时,建议使用 GPU 加速以提高处理速度。
  • 对于扫描质量较差的 PDF 文件,可以通过多次 OCR 识别来提高识别质量。

4. 典型生态项目

目前 PDF Craft 项目的生态还处于起步阶段,但以下是一些可能的生态项目方向:

  • 开发 Web 界面,使非技术用户也能轻松转换 PDF 文件。
  • 为项目添加更多的输出格式,如 Word、HTML 等。
  • 创建一个在线服务,允许用户上传 PDF 文件并获取转换结果。

pdf-craft PDF craft can convert PDF files into various other formats. This project will focus on processing PDF files of scanned books. The project has just started. pdf-craft 项目地址: https://gitcode.com/gh_mirrors/pd/pdf-craft

创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

白羿锟

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值