素材
jTessBoxEditor-2.2.0
lang.num.exp0.tif
tif命名规范:
[lang].[fontname].exp[num].tif
其中lang为语言名称,fontname为字体名称,num为序号,可以随便定义。
生成训练文件.box
tesseract lang.num.exp0.tif lang.num.exp0 -l eng -psm 7 batch.nochop makebox
生成font_properties文件(该文件没有后缀名)
num 0 0 0 0 0
内容为字体名font,后面带5个0,分别代表字体的粗体、斜体等属性,这里全部是0
1.bat
set font=num
tesseract %font%.tif %font% -l eng --psm 7 batch.nochop makebox
echo %font% 0 0 0 0 0 > font_properties
pause
2.bat
set font=num
tesseract %font%.tif %font% nobatch box.train
unicharset_extractor %font%.box
shapeclustering -F font_properties -U unicharset -O unicharset %font%.tr
mftraining -F font_properties -U unicharset %font%.tr
cntraining %font%.tr
rename normproto %font%.normproto
rename inttemp %font%.inttemp
rename pffmtable %font%.pffmtable
rename unicharset %font%.unicharset
rename shapetable %font%.shapetable
combine_tessdata %font%.
pause