DeepDoctection 文档智能处理框架安装指南

DeepDoctection 文档智能处理框架安装指南

【免费下载链接】deepdoctection A Repo For Document AI 【免费下载链接】deepdoctection 项目地址: https://gitcode.com/gh_mirrors/de/deepdoctection

前言

DeepDoctection 是一个强大的文档智能处理框架,它集成了多种深度学习模型,能够完成文档布局分析、表格识别、文本检测与识别等任务。本文将详细介绍如何在不同环境下安装和配置 DeepDoctection 框架。

系统要求

基础要求

  • 操作系统:Linux 或 macOS(Windows 用户可通过 Docker 使用)
  • Python 版本:≥ 3.9
  • 深度学习框架
    • PyTorch ≥ 2.2
    • 或 TensorFlow 2.11 ≤ 版本 < 2.16(低于此版本的 TensorFlow 仅支持 GPU 运行)

注意:从 Python 3.11 开始将不再支持 TensorFlow

硬件建议

  • 对于模型微调任务,建议使用 GPU 设备

可选组件

PDF 处理库选择

DeepDoctection 支持两种 PDF 处理库:

  1. Poppler:v0.34.0 及以下版本的默认选择
  2. PDFium:从 v0.35.0 开始成为默认选择

可通过设置环境变量切换:

USE_DD_POPPLER=True
USE_DD_PDFIUM=False
图像处理库选择
  • Pillow:轻量级,安装简单,默认选择
  • OpenCV:图像加载速度更快,适合训练场景

切换方式:

USE_DD_OPENCV=True
USE_DD_PILLOW=False
Tesseract OCR

需要单独安装 Tesseract,配置文件位于:

~/.cache/deepdoctection/configs/dd/conf_tesseract.yaml

模型支持情况

任务类型PyTorchTorchscriptTensorflow
布局检测(Detectron2/Tensorpack)✅(仅CPU)✅(仅GPU)
表格识别(Detectron2/Tensorpack)✅(仅CPU)✅(仅GPU)
Table transformer
Deformable-Detr
DocTr
LayoutLM系列模型

安装方法

1. 最小化安装

PyTorch 环境
pip install transformers python-doctr deepdoctection
TensorFlow 环境
pip install tensorpack python-doctr deepdoctection

2. 完整安装

PyTorch 环境
  1. 先安装 Detectron2:
pip install detectron2@git+https://github.com/deepdoctection/detectron2.git
  1. 安装完整依赖:
pip install deepdoctection[pt]
TensorFlow 环境
pip install deepdoctection[tf]

完整安装包含以下额外组件:

  • AWS Textract API 支持
  • PDF 文本提取工具 Pdfplumber
  • 语言识别库 Fasttext
  • 图像矫正库 Jdeskew
  • NLP 模型库 Transformers
  • 替代 OCR 引擎 DocTr
  • TensorFlow 专用组件 Tensorpack

3. 从源码安装

  1. 克隆仓库:
git clone https://github.com/deepdoctection/deepdoctection.git
cd deepdoctection
  1. 安装 PyTorch 版本:
pip install ".[source-pt]"
  1. 安装 TensorFlow 版本:
pip install ".[tf]"

Docker 使用

从 v0.27.0 版本开始,可直接拉取预构建的 Docker 镜像:

docker pull deepdoctection/deepdoctection:<release_tag>

使用 docker-compose.yaml 文件启动容器,需在 .env 文件中指定:

  • DeepDoctection 缓存目录
  • 工作目录(用于挂载待处理文件)

启动命令:

docker compose up -d

开发环境配置

完整开发安装

PyTorch 环境:

make install-dd-dev-pt

TensorFlow 环境:

make install-dd-dev-tf

代码质量检查

运行格式化和质量检查:

make format-and-qa

常见问题

  1. GPU 支持:确保安装与 CUDA 版本匹配的深度学习框架
  2. 环境冲突:建议使用虚拟环境隔离不同项目
  3. 模型下载:首次使用特定模型时会自动下载,请确保网络畅通

通过以上步骤,您就可以成功安装并开始使用 DeepDoctection 框架进行文档智能处理任务了。根据实际需求选择合适的安装方式,可以灵活平衡功能完整性与系统资源占用。

【免费下载链接】deepdoctection A Repo For Document AI 【免费下载链接】deepdoctection 项目地址: https://gitcode.com/gh_mirrors/de/deepdoctection

创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值