Tesseract-OCR 训练中文

最新推荐文章于 2025-09-14 10:39:09 发布

原创

最新推荐文章于 2025-09-14 10:39:09 发布 · 1.1w 阅读

·

7

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#tesseract #识别率 #中文

为了提高Tesseract库的中文识别率，可以对它进行中文字的训练。

1.首先安装Tesseract。这里注意要安装，因为安装的程序里面包含其他训练用到的程序，编译版本没有这些工具。

2.下载jTessBoxEditor工具。这个工具是Java写的，运行需要JRE。这个工具主要是用来修改BOX文件的，用来校对文字。下图为该工具的目录，直接点击红框中的程序即可跑起来。

这次准备让库可以识别取消这两个字，准备了5张图：

3.生成tif格式的文件

最好将图片都放在Tesseract库的安装目录下，然后就在这个目录下进行操作。点击jTessBoxEditor的Tools按钮中的Merge TIFF。然后将我们做样本的5张图片全部选中，点击打开。这时候会弹出另一个保存对话框，就是我们想要的tif文件，对于tif文件命名规则 [lang].[fontname].exp[num].tif。其中lang是语言，fontname是字体。按自己需求自行设定即可。点击保存，这时候目录下就有我们的tif文件了。

最低0.47元/天解锁文章

评论 3

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。