Kreuzberg 使用教程-优快云博客

本文链接：https://blog.youkuaiyun.com/gitblog_00125/article/details/147085225

Kreuzberg 使用教程

kreuzberg A text extraction library supporting PDFs, images, office documents and more 项目地址: https://gitcode.com/gh_mirrors/kr/kreuzberg

1. 项目介绍

Kreuzberg 是一个用 Python 编写的文本提取库，它提供了一个统一的接口来从 PDF、图像、办公文档等多种格式中提取文本。该库同时支持异步和同步 API，使得在处理大量或复杂的文档时更为高效。

Kreuzberg 的特点包括：

简单易用的清洁 API
无需外部 API 调用或云依赖，本地处理
资源效率高，无需 GPU
支持多种文档、图像和文本格式
支持多种 OCR 引擎，如 Tesseract、EasyOCR 和 PaddleOCR
提取文本的同时可以获取文档元数据
支持从文档中提取表格
使用现代 Python 语法，包括 async/await、类型标注等

2. 项目快速启动

首先，确保已经安装了必要的依赖。以下是不同操作系统的安装命令：

# Ubuntu/Debian
sudo apt-get install tesseract-ocr pandoc

# macOS
brew install tesseract pandoc

# Windows
choco install -y tesseract pandoc

接着，安装 Kreuzberg 库：

pip install kreuzberg

如果需要使用 EasyOCR 或 PaddleOCR，可以使用以下命令安装：

# 安装 EasyOCR 支持
pip install "kreuzberg[easyocr]"

# 安装 PaddleOCR 支持
pip install "kreuzberg[paddleocr]"

以下是一个快速提取文档内容的例子：

import asyncio
from kreuzberg import extract_file

async def main():
    # 从 PDF 提取文本
    result = await extract_file("document.pdf")
    print(result.content)

    # 从图像提取文本
    result = await extract_file("scan.jpg")
    print(result.content)

    # 从 Word 文档提取文本
    result = await extract_file("report.docx")
    print(result.content)

asyncio.run(main())