简单的OCR识别-java-tesseract

本文介绍了TesseractOCR库,一个开源的OCR引擎,以及其Java接口Tess4J的使用。重点讲述了如何使用自带训练模型和自定义训练模型对图像进行文字识别的过程,包括语言模型的下载和使用jTessBoxEditor创建自定义训练库。

Tesseract是一个开源的光学字符识别 (OCR) 引擎,它可以将图像中的文字转换为计算机可读的文本。支持多种语言和书面语言,并且可以在命令行

中执行。它是一一个流行的开源OCR工具,可以在许多不同的操作系统上运行。Tess4J是一个基于Tesseract 0CR字的Java接口,可以用来识别图像中的文本,说白了,就是封装了它的API,让Java可以直接调用。

训练数据:

Tesseract OCR库通过训练数据来学习不同语言和字体的特征,以便更好地识别图片中的文字。在安装Tesseract OCR库时,通常会生成一个包含多个子文件夹的训练数据文件夹,其中每个子文件夹都包含了特定语言或字体的训练数据。

语言模型下载:https://gitcode.net/search?utf8=%E2%9C%93&snippets=false&scope=&repository_ref=&search=tesseract(gitcode) java使用Tess4J实现OCR图片文字识别_java ocr-优快云博客(参考这篇文章,里面有下载的内容百度网盘 (可以查看人家博客   
  java使用Tess4J实现OCR图片文字识别_java ocr-优快云博客
))

tess4 jar包

<dependency>
    <groupId>net.sourceforge.tess4j</groupId>
    <artifactId>tess4j</artifactId>
    <version>5.2.1</version>
</dependency>
1.使用自带的训练模型

程序 

public class ocr {
    @Test
    public void OcrTest(){
          //指定图片位置
        String path="E:\\idea\\ocr\\Ocr_test\\1.png";
           File file = new File(path);
     //指定语言模型位置
          String languagePath = "E:\\idea\\ocr\\tessdata";
        Tesseract instance = new Tesseract();
//        设置训练库位置
        instance.setDatapath(languagePath);
//        chi_sim 中文  eng 英文
        instance.setLanguage("chi_sim");
        String result= "123";
        try {
            //进行解析
            result   = instance.doOCR(file);
        } catch (TesseractException e) {
            throw new RuntimeException(e);
        }
        System.out.println("result:"+result);
    }
}

2.使用自定义训练模型
        下载 jTessBoxEditor2.0工具,用于调整图片上文字的内容和位置
https://sourceforge.net/projects/vietocr/files/jTessBoxEditor/
安装包解压后打开“jTessBoxEditor.jar”,或者双击该目录下的“train.bat”脚本文件
选择Tools->Merge TIFF  进行要识别的图片进行合并

     

将所有的图片进行合并成一个盒子

 选择生成的盒子调整识别内容

进行生成自定义语言库


 

评论 1
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值