Tesseract-ocr 工具使用记录

最新推荐文章于 2019-08-20 14:17:04 发布

weixin_30460489

最新推荐文章于 2019-08-20 14:17:04 发布

阅读量86

点赞数

CC 4.0 BY-SA版权

原文链接：http://www.cnblogs.com/gtsup/p/7065946.html

本文介绍如何下载并配置Tesseract OCR工具，通过jTessBoxEditor进行字库训练的方法。包含环境变量设置、命令行使用及图片处理流程。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1、很多地方可以下载Tesseract-ocr工具，同时下载jTessBoxEditor方便之后的训练使用

2、下载Tesseract-ocr后可以放在任何地方，但是需要设置环境变量，或者在CMD当中调用的时候指定路径

在CMD当中的使用方法 Tesseract + 需要识别图片路径名称 + 返回结果路径名称 + ‘-l’ + 语言名称

例如 tesseract c:\a.png c:\result -l eng 识别c:\a.png图片结构返回c:\result（此处返回的文件是txt文件，但是此处不用加txt扩展名） -l eng(使用eng的字库识别，也可以使用别的字库)

3、使用jTessBoxEditor进行训练自己的字库，推荐http://www.tuicool.com/articles/zY7jQbM这篇文章，只是文章中的命令行可以利用工具上的菜单实现

4、利用jTessBoxEditor步骤简介

1、先将需要训练的图片保存在一个文件夹下

2、在jTessBoxEditor当中设置

设置tesseract程序的路径

设置需要被学习的图片路径（需要注意的，如果有多张图片，需要先使用Tools->merge TIFF 命令将多张图片合成为一张，选择的时候需要按住shift多选）

选择好路径后可以在此填写字库名都设置完后需要给图片生成box文件以用于下一步的修正选择此项目，然后点RUN，就会自动生成box文件了

接着就是修正初步识别的文字了，选择第二项 box editor，点open，后选择之前需要被学习的图片就能进行修正了，修正好了点击save保存，之后再来到

第一页的trainer 选择点run就会自动生成字库了，之后可以选择

validate进行测试了，生成的字库会在图片同级目录下

转载于:https://www.cnblogs.com/gtsup/p/7065946.html

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。