tesseract训练字符中遇到的问题总结

本文详细介绍了使用tesseract库对中文字符、车牌省份简称、字母、数字进行训练的方法,包括字体文件创建、文件命名规范以及训练命令行使用。特别指出了一些常见问题,如字体文件命名错误、文件缺失等问题,并提供了简化命令行操作的.bat文件示例。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

参考文章:  http://my.oschina.net/lixinspace/blog/60124  的采用tessract库训练字符的过程,
对中文字符库,比如车牌中的省份简称等的训练,字母的训练,数目和字母的训练。


在训练过程中,发现了以下问题:
1、font_properties的文件创建:
     文件中的内容为:UnknownFont 0 0 0 0 0


     因为在训练过程中,我并没有对文件命名,所以系统默认是:UnknownFont 这个名称。


2、把unicharset, inttemp, normproto, pfftable这四个文件加上前缀“orderNo.”时,少写了一个文件shapetable,此文件也应该重新命名。


3、鉴于  http://www.lixin.me/blog/2012/05/26/29536  在下面讨论中,提到的3.02版本需要一个 shapeclustering 过程


Example:
font_properties file:
timesitalic 1 0 0 1 0
shapeclustering -F font_properties -U unicharset eng.timesitalic.exp0.tr
mftraining -F font_properties -U unicharset -O eng.unicharset eng.timesitalic.exp0.tr


其实是没有必要的。



以下附上命令行使用,可以将这些拷贝到一个文件中,命名为.bat文件,就可以直接使用,而不用一行一行敲代码了。


tesseract.exe letterNumMerge.tif letterNumMerge batch.nochop makebox
pause
tesseract.exe letterNumMerge.tif letterNumMerge nobatch box.train
unicharset_extractor.exe letterNumMerge.box
mftraining.exe -F font_properties -U unicharset letterNumMerge.tr
cntraining.exe letterNumMerge.tr
rename normproto letterNumMerge.normproto
rename unicharset letterNumMerge.unicharset
rename inttemp letterNumMerge.inttemp
rename pffmtable letterNumMerge.pffmtable
rename shapetable letterNumMerge.shapetable
pause
combine_tessdata.exe letterNumMerge.
pause



评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值