1、Java项目中引入tess4j库,用gradle配置如下:
implementation 'net.sourceforge.tess4j:tess4j:5.2.0'
2、安装Tesseract5.0
因Tess4j无法在mac系统使用,报错找不到一些依赖的类库,所以必须安装tesseract5.0.
安装可以用:
brew install tesseract
如果要用图片训练tesstrain,则需要从github下源代码编译(GitHub - tesseract-ocr/tesseract: Tesseract Open Source OCR Engine (main repository)),本人这里需要用训练,所以是下载代码编译的,过程比较复杂,可以直接它的安装文档进行安装。
3、设置java运行变量tessdata的位置,如下。
4、以上步骤完成,运行java就能识别图片了。
这个识别对于干净整洁的英文数字图片识别效果不错,但是像验证码这种有很多干扰项的图片,识别正确率就很低了,可以运动训练工具提高识别率。
补充:遇到运行时报错找不到libtesseract.5.dylib(根据自己的版本确定具体的文件),需要把libtesseract.5.dylib这个文件手工添加到tess4j的jar包中。
5、下载tesst

本文介绍了在Mac上使用Tesseract5.0、tesstrain和Tess4J进行图片识别,特别是验证码识别的流程。包括通过gradle配置Tess4J库,解决mac系统依赖问题,训练图片,处理tif图片的dpi,以及转换jpg为tif。训练后的hx.traineddata文件可用于提高复杂图片如验证码的识别率。
最低0.47元/天 解锁文章
1361

被折叠的 条评论
为什么被折叠?



