OCR-Tesseract系列学习——Tesseract for Linux下载与安装

1 Tesseract简单介绍

1.1 起源

Tesseract项目最初由惠普实验室支持,1996年被移植到Windows上,1998年进行了C++化。在2005年Tesseract由惠普公司宣布开源。2006年到现在,都由Google公司开发。

1.2 特性

目前,Tesseract可以识别超过100种语言。也可以用来训练其它的语言。

源码包提供了一个OCR的引擎——libtesseract以及一个命令行程序——tesseract。

Tesseract支持多种输出格式,如:普通文本、html、pdf等。

2 下载&依赖

2.1 下载链接

http://tesseract.gg/

2.2 其他依赖

  1. png,jepg,tiff 图像格式解析基础库
  2. leptonica图像处理开发库
  3. tesseract 光学字符识别核心开发库
  4. tessdata 识别用的已训练数据集

3 安装

3.1 安装方法1

Linux自带Tesseract的源程序包。在Linux本地安装步骤如下。

  1. 下载图像格式依赖

sudo apt-get install libpng12-dev
sudo apt-get install libjpeg8-dev
sudo apt-get install libtiff5-dev

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值