文章目录
1 Tesseract OCR库
将图片翻译成文字一般被称为光学文字识别(Optical Character Recognition,OCR)。可以实现OCR 的底层库并不多,目前很多库都是使用共同的几个底层OCR 库,或者是在上面进行定制。
Tesseract是一个OCR库,目前由Google赞助(Google也是一家以OCR和机器学习技术闻名于世的公司)。Tesseract是目前公认最优秀、最精确的开源OCR系统。
1.1 安装Tesseract
参考Tesseract的Windows安装包下载地址
安装包tesseract-ocr-w64-setup-v5.3.0.20221214.exe。
下载后双击直接安装即可。
安装目录C:\Program Files\Tesseract-OCR。
在CMD中输入tesseract -v, 如显示以下界面,则表示Tesseract安装完成。