JAVA tess 识别图中文字已训练好识别精准

原创已于 2022-04-19 16:20:27 修改 · 1.4k 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#java #idea

于 2022-04-14 17:39:26 首次发布

工具专栏收录该内容

3 篇文章

订阅专栏

本文介绍了如何在Java项目中使用Tess4J库进行中文文字识别。首先，添加了Tess4J的依赖，然后下载并引入中文语言包chi_sim.traineddata。接着，在测试类中配置数据路径和识别语言，对指定图片进行OCR操作，成功实现了高精度的中文文字识别。

JAVA tess 识别图中文字已训练好识别精准

文章目录

JAVA tess 识别图中文字已训练好识别精准
一、添加依赖
二、下载更新好的中文语言包 chi_sim.traineddata,免费下载
三、测试类
四、结果

提示：以下是本篇文章正文内容，下面案例可供参考

一、添加依赖

<dependency>
            <groupId>net.sourceforge.tess4j</groupId>
            <artifactId>tess4j</artifactId>
            <version>5.2.0</version>
</dependency>

二、下载更新好的中文语言包 chi_sim.traineddata,免费下载

点击进入下载 https://github.com/tesseract-ocr/tessdata
在这里插入图片描述

三、测试类

package com.isec.platform.bi.service.bi;
import net.sourceforge.tess4j.Tesseract;
import net.sourceforge.tess4j.TesseractException;

import java.io.File;


/**
 * @author ChenYi
 * @create 2022-01-21 13:48
 */
public class testOcr3 {

    public static void main(String[] args) throws TesseractException {
        //加载待读取图片
        File imageFile = new File("C:\\Users\\AiSK\\Desktop\\testjpg\\test1.jpg");
        //创建tess对象
        Tesseract instance = new Tesseract();
        //设置训练所属文件目录！！！！
        instance.setDatapath("D:\\chi_text\\tessdata-main");
        //设置训练语言
        instance.setLanguage("chi_sim");
        //执行转换
        String result = instance.doOCR(imageFile);
        System.out.println(result);
    }
    
}