tesseract-ocr 训练

本文详细介绍了使用Tesseract OCR进行自定义字体训练的过程,包括如何按照命名规范创建训练素材,生成训练所需的.box和font_properties文件,以及如何通过一系列bat批处理文件完成训练数据的制作。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

素材

jTessBoxEditor-2.2.0
lang.num.exp0.tif

tif命名规范:
[lang].[fontname].exp[num].tif
其中lang为语言名称,fontname为字体名称,num为序号,可以随便定义。

生成训练文件.box

tesseract lang.num.exp0.tif lang.num.exp0 -l eng -psm 7 batch.nochop makebox

生成font_properties文件(该文件没有后缀名)
num 0 0 0 0 0
内容为字体名font,后面带5个0,分别代表字体的粗体、斜体等属性,这里全部是0

1.bat

set font=num
tesseract %font%.tif %font% -l eng --psm 7 batch.nochop makebox
echo %font% 0 0 0 0 0 > font_properties
pause

2.bat

set font=num
tesseract %font%.tif %font% nobatch box.train
unicharset_extractor %font%.box
shapeclustering -F font_properties -U unicharset -O unicharset %font%.tr
mftraining -F font_properties -U unicharset %font%.tr
cntraining %font%.tr

rename normproto %font%.normproto
rename inttemp %font%.inttemp
rename pffmtable %font%.pffmtable
rename unicharset %font%.unicharset
rename shapetable %font%.shapetable

combine_tessdata %font%.
pause

 

 

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值