1.图片识别引擎
1. OCR介绍
OCR(Optical Character Recognition)是指使用扫描仪或数码相机对文本资料进行扫描成图像文件,然后对图像文件进行分析处理,自动识别获取文字信息及版面信息的软件。
2.1 什么是tesseract
Tesseract,一款由HP实验室开发由Google维护的开源OCR引擎,特点是开源,免费,支持多语言,多平台。
2.2 图片识别引擎环境的安装
2.2.1 引擎的安装
- mac环境下直接执行命令
brew install --with-training-tools tesseract
2.2.2 windows环境下的安装
可以通过exe安装包安装,下载地址可以从GitHub项目中的wiki找到。安装完成后记得将Tesseract 执行文件的目录加入到PATH中,方便后续调用。
默认安装后的路径:C:\Program Files\Tesseract-OCR\ ,将其添加到环境变量。有可能也会是Program Files(x86)的路径下的文件夹