这是一款由HP实验室开发由Google维护的开源OCR(Optical Character Recognition , 光学字符识别)引擎,与Microsoft Office Document Imaging(MODI)相比,我们可以不断的训练的库,使图像转换文本的能力不断增强;如果团队深度需要,还可以以它为模板,开发出符合自身需求的OCR引擎。
git地址为:https://github.com/tesseract-ocr/tesseract;
首先创建一个java项目 并集成 tesseract引擎库
集成方式:
1.jar包导入 需要导入以下jar包,集成方式比较繁琐

2.maven库依赖导入 在maven项目中的pom文件中加入以下依赖
<dependency>
<groupId>net.sourceforge.tess4j</groupId>
<artifactId>tess4j</artifactId>
<version>4.1.1</version>
<exclusions>
<exclusion>
<groupId>com.sun.jna</groupId>
<artifactId>jna</artifactId>
</exclusion>
</exclusions>
</dependency>
java识别代码
private static String ocr(String filePath) {
String result = null;
try {
double start = System.currentTimeMillis();
BufferedImage textImage = ImageIO.read(new File(filePath));
// 这里对图片黑白处理,增强识别率.这里先通过截图,截取图片中需要识别的部分
textImage = ImageHelper.convertImageToGrayscale(textImage);
// 图片锐化
textImage = ImageHelper.convertImageToBinary(textImage);
// 图片放大倍数,增强识别率(很多图片本身无法识别,放大5倍时就可以轻易识,但是考滤到客户电脑配置低,针式打印机打印不连贯的问题,这里就放大5倍)
textImage = ImageHelper.getScaledInstance(textImage, textImage.getWidth() * 1, textImage.getHeight() * 1);
textImage = ImageHelper.convertImageToBinary(textImage);
ImageIO.write(textImage, "png", new File("E:\\accccccccccccc\\img_temp.jpg"));
Tesseract instance = new Tesseract();
instance.setDatapath(System.getProperty("user.dir") + "\\tessdata");//设置训练库的位置
instance.setLanguage("chi_simmm");//中文识别
instance.setLanguage("chi_simm");//中文识别
instance.setLanguage("chi_sim");//中文识别
// instance.setLanguage("chi_tra");//中文识别
// instance.setLanguage("eng");//英文识别
result = instance.doOCR(textImage);
double end = System.currentTimeMillis();
System.out.println("耗时" + (end - start) / 1000 + " s");
} catch (Exception e) {
e.printStackTrace();
}
return result;
}
识别的图片为:

这里可以通过动态的对图片做黑白、锐化、放大等操作来提高中文识别率
经过处理后的图片为:

识别结果为:

可以看出经过训练后的库识别经过处理的图片的精度还是比较不错的,但是识别比较复杂场景的文字识别率还是有待提升;
库文件需要自己识别训练生成训练库来提高识别率,不过目前网上的训练方法比较繁琐,后续文章会说明训练方法;
*中文训练库文件以及demo文件下载地址:https://download.youkuaiyun.com/download/intenttao/10812148
*tesseract本地化引入jar文件下载地址:https://download.youkuaiyun.com/download/intenttao/10812225

本文介绍了一款由HP实验室开发并由Google维护的开源OCR引擎——Tesseract,详细讲解了其在Java项目中的集成方法及使用技巧,包括通过黑白处理、锐化和放大等操作提高中文识别率的方法。
1817





