文档提取API安装与配置指南

最新推荐文章于 2025-04-19 07:00:47 发布

赖蓉旖Marlon

最新推荐文章于 2025-04-19 07:00:47 发布

阅读量591

点赞数 12

本文链接：https://blog.youkuaiyun.com/gitblog_01030/article/details/146639869

版权

本项目是基于Python语言的开源项目，主要用于提取图片、PDF或办公文档中的文本内容，并将其转换为Markdown或JSON格式的结构化文档。该项目采用了先进的OCR技术，以及基于深度学习的文本处理模型，能够实现高精度地识别表格数据、数字和数学公式。

在开始安装之前，请确保您的系统中已安装以下软件：

克隆仓库

首先需要将项目仓库克隆到本地：

git clone https://github.com/CatchTheTornado/text-extract-api.git
cd text-extract-api

设置环境变量

拷贝.env.localhost.example文件为.env.localhost，并根据实际情况修改环境变量。
```
cp .env.localhost.example .env.localhost
```

安装依赖

创建虚拟环境并安装项目依赖：

python3 -m venv .venv
source .venv/bin/activate
pip install -e .

启动服务

使用run.sh脚本启动服务（确保脚本具有执行权限）：
```
chmod +x run.sh
./run.sh
```
如果是在Mac操作系统上，还需要安装一些额外的依赖：
```
brew update && brew install libmagic poppler pkg-config ghostscript ffmpeg automake autoconf
```
启动Celery Worker

为了处理异步任务，需要启动Celery Worker：
```
celery -A text_extract_api.celery_app worker --loglevel=info --pool=solo
```
若需要并发处理，可以重复启动多个Celery Worker进程。