1. 安装jTessBoxEditor(需安装java,中文识别需要FX版本)
2.双击打开,如果打不开(java -jar jar的路径)
3.打开 jTessBoxEditor ,选择 Tools -> Merge TIFF,选择要训练的图片,保存.tif的路径
4.在tifi的路径下cmd:tesseract chi_my.font.exp0.tif chi_my.font.exp0 -l chi_sim batch.nochop makebox
5.jTessBoxEditorFX开打.box文件,调整文字位置和文字内容
6.目录路径下cmd:echo font 0 0 0 0 0>font_properties
7.tesseract chi_my.font.exp0.tif chi_my.font.exp0 nobatch box.train
8. 生成之后手工修改 Clustering 过程生成的 4 个文件(inttemp、pffmtable、normproto、shapetable)的名称为 [lang].xxx。这里改为 chi_my.inttemp、chi_my.pffmtable、chi_my.normproto、chi_my.shapetable
mv inttemp chi_my.inttemp
mv pffmtable chi_my.pffmtable
mv normproto chi_my.normproto
mv shapetable chi_my.shapetable
9.合并:combine_tessdata chi_my.
10.把chi_my.traineddata 放到tesseract-ocr\tessdata下面
一、素材准备