介绍
Tesseract是一个开源的OCR引擎,能识别100多种语言(中,英,韩,日,德,法...等等),但是Tesseract对手写的识别能力较差。
安装
如果只是识别汉字,也不进行训练,可以不安装训练工具,仅执行 brew install tesseract

//只安装tesseract,不安装训练工具
brew install tesseract
//安装tesseract的同时安装训练工具
brew install --with-training-tools tesseract
//安装tesseract的同时安装所有语言,语言包比较大,如果安装的话时间较长,建议不安装,按需选择
brew install --all-languages tesseract
//安装tesseract,并安装训练工具和语言
brew install --all-languages --with-training-tools tesseract
下载语言库
全部语言库下载地址:https://github.com/tesseract-ocr/tessdata
根据自己的需求选择所要的语言库,在这里我们选择的是简体中文所以选择的库是:chi_sim.traineddata https://github.com/tesseract-ocr/tessdata/blob/master/chi_sim.traineddata
将文件拷贝到到:/usr/local/Cellar/tesseract/4.0.0_1/share/tessdata 目录下
使用
tesseract --help 查看可用接口

查看本地存在的语言库
tesseract --list-langs

命令调用
一般使用。默认使用eng文字库,接下来的参数是图片地址;eng_result为存放识别结果txt文件
以下为执行命令。以及执行结果和识别的图片样例。准确率很高的哦。
tesseract /Users/waldenz/Documents/Work/doc/eng_news.png eng_result


-l chi_sim为指定使用中文简体,
tesseract -l chi_sim /Users/waldenz/Documents/Work/doc/44.jpg result
#如果为多语言 用+号连接
tesseract -l chi_sim+eng .......


python调用源码
源码就比较简单了, 一句话搞定
# 首先安装两个包
# pip install pytesseract
# pip install Pillow
from PIL import Image
import pytesseract
# 指定图片路径和识别的语言
text = pytesseract.image_to_string(Image.open(
'/Users/waldenz/Documents/Work/doc/55.jpg'), lang='chi_sim')
print(text)
# 传入图片链接,识别图片
from PIL import Image
import pytesseract
import requests
from io import BytesIO
image_url = "https://ww1.sinaimg.cn/bmiddle/74c23d97ly1g2g46o05g7j20f40qodhu.jpg"
html = requests.get(image_url)
# open 图片链接中的图片流
image = Image.open(BytesIO(html.content))
text = pytesseract.image_to_string(image, lang='chi_sim+eng')
print(text)
步骤参考: https://blog.youkuaiyun.com/u010670689/article/details/78374623
836

被折叠的 条评论
为什么被折叠?



