DeepDoctection 文档智能处理框架安装指南
【免费下载链接】deepdoctection A Repo For Document AI 项目地址: https://gitcode.com/gh_mirrors/de/deepdoctection
前言
DeepDoctection 是一个强大的文档智能处理框架,它集成了多种深度学习模型,能够完成文档布局分析、表格识别、文本检测与识别等任务。本文将详细介绍如何在不同环境下安装和配置 DeepDoctection 框架。
系统要求
基础要求
- 操作系统:Linux 或 macOS(Windows 用户可通过 Docker 使用)
- Python 版本:≥ 3.9
- 深度学习框架:
- PyTorch ≥ 2.2
- 或 TensorFlow 2.11 ≤ 版本 < 2.16(低于此版本的 TensorFlow 仅支持 GPU 运行)
注意:从 Python 3.11 开始将不再支持 TensorFlow
硬件建议
- 对于模型微调任务,建议使用 GPU 设备
可选组件
PDF 处理库选择
DeepDoctection 支持两种 PDF 处理库:
- Poppler:v0.34.0 及以下版本的默认选择
- PDFium:从 v0.35.0 开始成为默认选择
可通过设置环境变量切换:
USE_DD_POPPLER=True
USE_DD_PDFIUM=False
图像处理库选择
- Pillow:轻量级,安装简单,默认选择
- OpenCV:图像加载速度更快,适合训练场景
切换方式:
USE_DD_OPENCV=True
USE_DD_PILLOW=False
Tesseract OCR
需要单独安装 Tesseract,配置文件位于:
~/.cache/deepdoctection/configs/dd/conf_tesseract.yaml
模型支持情况
| 任务类型 | PyTorch | Torchscript | Tensorflow |
|---|---|---|---|
| 布局检测(Detectron2/Tensorpack) | ✅ | ✅(仅CPU) | ✅(仅GPU) |
| 表格识别(Detectron2/Tensorpack) | ✅ | ✅(仅CPU) | ✅(仅GPU) |
| Table transformer | ✅ | ❌ | ❌ |
| Deformable-Detr | ✅ | ❌ | ❌ |
| DocTr | ✅ | ❌ | ✅ |
| LayoutLM系列模型 | ✅ | ❌ | ❌ |
安装方法
1. 最小化安装
PyTorch 环境
pip install transformers python-doctr deepdoctection
TensorFlow 环境
pip install tensorpack python-doctr deepdoctection
2. 完整安装
PyTorch 环境
- 先安装 Detectron2:
pip install detectron2@git+https://github.com/deepdoctection/detectron2.git
- 安装完整依赖:
pip install deepdoctection[pt]
TensorFlow 环境
pip install deepdoctection[tf]
完整安装包含以下额外组件:
- AWS Textract API 支持
- PDF 文本提取工具 Pdfplumber
- 语言识别库 Fasttext
- 图像矫正库 Jdeskew
- NLP 模型库 Transformers
- 替代 OCR 引擎 DocTr
- TensorFlow 专用组件 Tensorpack
3. 从源码安装
- 克隆仓库:
git clone https://github.com/deepdoctection/deepdoctection.git
cd deepdoctection
- 安装 PyTorch 版本:
pip install ".[source-pt]"
- 安装 TensorFlow 版本:
pip install ".[tf]"
Docker 使用
从 v0.27.0 版本开始,可直接拉取预构建的 Docker 镜像:
docker pull deepdoctection/deepdoctection:<release_tag>
使用 docker-compose.yaml 文件启动容器,需在 .env 文件中指定:
- DeepDoctection 缓存目录
- 工作目录(用于挂载待处理文件)
启动命令:
docker compose up -d
开发环境配置
完整开发安装
PyTorch 环境:
make install-dd-dev-pt
TensorFlow 环境:
make install-dd-dev-tf
代码质量检查
运行格式化和质量检查:
make format-and-qa
常见问题
- GPU 支持:确保安装与 CUDA 版本匹配的深度学习框架
- 环境冲突:建议使用虚拟环境隔离不同项目
- 模型下载:首次使用特定模型时会自动下载,请确保网络畅通
通过以上步骤,您就可以成功安装并开始使用 DeepDoctection 框架进行文档智能处理任务了。根据实际需求选择合适的安装方式,可以灵活平衡功能完整性与系统资源占用。
【免费下载链接】deepdoctection A Repo For Document AI 项目地址: https://gitcode.com/gh_mirrors/de/deepdoctection
创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考



