1、Java项目中引入tess4j库,用gradle配置如下:
implementation 'net.sourceforge.tess4j:tess4j:5.2.0'
2、安装Tesseract5.0
因Tess4j无法在mac系统使用,报错找不到一些依赖的类库,所以必须安装tesseract5.0.
安装可以用:
brew install tesseract
如果要用图片训练tesstrain,则需要从github下源代码编译(GitHub - tesseract-ocr/tesseract: Tesseract Open Source OCR Engine (main repository)),本人这里需要用训练,所以是下载代码编译的,过程比较复杂,可以直接它的安装文档进行安装。
3、设置java运行变量tessdata的位置,如下。
4、以上步骤完成,运行java就能识别图片了。
这个识别对于干净整洁的英文数字图片识别效果不错,但是像验证码这种有很多干扰项的图片,识别正确率就很低了,可以运动训练工具提高识别率。
补充:遇到运行时报错找不到libtesseract.5.dylib(根据自己的版本确定具体的文件),需要把libtesseract.5.dylib这个文件手工添加到tess4j的jar包中。
5、下载tesst