1、准备训练样品图片
用画图板做五个数字图,保存为tif格式,为了方便写命令,直接放到jtessboxeditor的tesseract-ocr文件夹内。
2、生成tif文件
安装java虚拟机,配置环境变量,解压jtessboxeditor后双击打开jtessboxeditor.jar,tools-merge tiff,选择那五幅图片,生成tif文件。
生成的文件名格式:字体名.语言名.版本号(lan.new.exp0.tif)。(此处图片要是tif类型,不能直接修改jpg类型后缀,无效)
3、生成box文件
控制台进入jtessboxeditor-tesseract-ocr文件夹,输入命令tesseract lan.new.exp0.tif lan.new.exp0 batch.nochop makebox
用jtessboxeditor打开box文件,挨个修改字符,修改后save一下。
4、生成train文件
同3进入控制台,输入命令tesseract lan.new.exp0.tif lan.new.exp0 box.train
生成tr文件(此处很多教程都加了nobatch,而我一直提示params not found没法建立,最后看官网教程去掉这个参数)
5、定义字体特征文件
建立一个文件font_properties,内容是new 0 0 0 0 0
6、生成语言文件
创建一个批处理文件,内容如下:
rem 执行改批处理前先要目录下创建font_properties文件
echo Run Tesseract for Training..
tesseract.exe lan.new.exp1.tif lan.new.exp1 nobatch box.train
echo Compute the Character Set..
unicharset_extractor.exe lan.new.exp1.box
mftraining -F font_properties -U unicharset -O num.unicharset lan.new.exp1.tr
echo Clustering..
cntraining.exe lan.new.exp1.tr
echo Rename Files..
rename normproto LAN.new.normproto
rename inttemp LAN.new.inttemp
rename pffmtable LAN.new.pffmtable
rename shapetable LAN.new.shapetable
echo Create Tessdata..
combine_tessdata.exe num.
7、执行一下,可以识别了。