Tess4J识别图片

最新推荐文章于 2024-04-22 12:01:55 发布

原创

最新推荐文章于 2024-04-22 12:01:55 发布 · 482 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#Ťess4j #ØCR

本文介绍了如何利用Tess4j进行OCR识别，包括下载Tess4j库，添加必要的jar包到构建路径，并提供链接获取中文简体字符集chi_sim.traineddata，该数据集需要放在tessdata文件夹中。

Tess4j下载地址 https://sourceforge.net/projects/tess4j/

需要的包：解压后dist文件夹中tess4j-3.4.8.jar与lib文件夹中所有的jar包构建路径

压缩包中只有英文字符集可以在此链接 https://github.com/tesseract-ocr/tessdata 中下载chi_sim.traineddata中文简体字符集

在与src同等级新建一个tessdata文件夹，将字符集放入

import java.io.File;
import net.sourceforge.tess4j.ITesseract;
import net.sourceforge.tess4j.Tesseract;
import net.sourceforge.tess4j.TesseractException;
public class MyOCR {
    public String ocr(File s) throws TesseractException {  
        ITesser