文档提取API安装与配置指南

文档提取API安装与配置指南

text-extract-api Document (PDF, Word, PPTX ...) extraction and parse API using state of the art modern OCRs + Ollama supported models. Anonymize documents. Remove PII. Convert any document or picture to structured JSON or Markdown text-extract-api 项目地址: https://gitcode.com/gh_mirrors/te/text-extract-api

1. 项目基础介绍

本项目是基于Python语言的开源项目,主要用于提取图片、PDF或办公文档中的文本内容,并将其转换为Markdown或JSON格式的结构化文档。该项目采用了先进的OCR技术,以及基于深度学习的文本处理模型,能够实现高精度地识别表格数据、数字和数学公式。

2. 关键技术和框架

  • OCR技术:使用基于PyTorch的OCR模型(EasyOCR)进行光学字符识别。
  • 深度学习模型:采用Ollama支持的模型(如LLama 3.1)对OCR结果进行优化,提高文本质量。
  • 异步任务处理:使用Celery框架进行异步任务处理,提高处理效率。
  • 缓存机制:利用Redis进行结果缓存,优化性能。
  • 存储策略:支持多种存储策略,如Google Drive、本地文件系统等。
  • CLI工具:提供命令行工具,方便用户上传任务和处理结果。

3. 安装和配置准备工作

在开始安装之前,请确保您的系统中已安装以下软件:

  • Python(建议版本3.8及以上)
  • Docker
  • Ollama

详细安装步骤

  1. 克隆仓库

    首先需要将项目仓库克隆到本地:

    git clone https://github.com/CatchTheTornado/text-extract-api.git
    cd text-extract-api
    
  2. 设置环境变量

    拷贝.env.localhost.example文件为.env.localhost,并根据实际情况修改环境变量。

    cp .env.localhost.example .env.localhost
    
  3. 安装依赖

    创建虚拟环境并安装项目依赖:

    python3 -m venv .venv
    source .venv/bin/activate
    pip install -e .
    
  4. 启动服务

    使用run.sh脚本启动服务(确保脚本具有执行权限):

    chmod +x run.sh
    ./run.sh
    

    如果是在Mac操作系统上,还需要安装一些额外的依赖:

    brew update && brew install libmagic poppler pkg-config ghostscript ffmpeg automake autoconf
    
  5. 启动Celery Worker

    为了处理异步任务,需要启动Celery Worker:

    celery -A text_extract_api.celery_app worker --loglevel=info --pool=solo
    

    若需要并发处理,可以重复启动多个Celery Worker进程。

以上步骤完成之后,您的文档提取API就已经安装配置完成,可以开始使用了。通过CLI工具,您可以上传文档并获取结构化文本的输出。

text-extract-api Document (PDF, Word, PPTX ...) extraction and parse API using state of the art modern OCRs + Ollama supported models. Anonymize documents. Remove PII. Convert any document or picture to structured JSON or Markdown text-extract-api 项目地址: https://gitcode.com/gh_mirrors/te/text-extract-api

创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

赖蓉旖Marlon

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值