Tesseract-OCR识别中文之---训练自定义字库生成语言包

本文介绍如何使用Tesseract-OCR的手动训练方法,针对特定汉字进行识别优化,包括准备工具、图片格式转换、生成及校验box文件、创建font_properties文件和合成语言包的全过程。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

在之前已经说明过Tessract-OCR识别(手写|通用字体)中文了,只不过使用的是官方的汉字库,

https://blog.youkuaiyun.com/weixin_37794901/article/details/83343092;

若想提高针对几个汉字的识别,可以自己训练文字库生成语言包,这里采用的是比较智障的方式手动机器训练哈;

 

1.工具:

     1)安装好Tesseract-OCR  2)训练工具 jTessBoxEditor (需Java环境),具体如何使用可以网上捞;

2.demo(window10环境)

    1)将测试的图片(带有中文的)转换成tiff格式:https://www.aconvert.com/cn/image/jpg-to-tiff/

    2)文件命名的格式:

       tif文面命名格式[lang].[fontname].exp[num].tif,

       lang是语言 fontname是字体,比如我们要训练自定义字库 mjorcen字体名normal,那么我们把图片文件重命名                                       mjorcen.normal.exp0.jpg在转tif。   

   3)生成box文件

       进入tesseract安装目录,dos命令:

       tesseract mjorcen.normal.exp0.jpg mjorcen.normal.exp0 -l chi_sim batch.nochop makebox

   4)打开校验工具,训练文字

     

  dos命令:

tesseract  mjorcen.normal.exp0.jpg mjorcen.normal.exp0  nobatch box.train

unicharset_extractor mjorcen.normal.exp0.box

   5)新建一个font_properties文件

   dos命令:echo normal 0 0 0 0 0 >fileName_properties

   6) 生成语言包

     dos命令:

     shapeclustering -F font_properties -U unicharset mjorcen.normal.exp0.tr

     mftraining -F font_properties -U unicharset -O unicharset mjorcen.normal.exp0.tr

     cntraining mjorcen.normal.exp0.tr

     将生成的unicharset、inttemp、pffmtable、shapetable、normproto这五个文件前面都加上normal. 方便合成

     combine_tessdata normal.

     最后得到:

    

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值