**
Tesseract-OCR 4.0LSTM训练流程 (Windows环境下)**
目前网上关于tesseract3.0版本的训练过程很多,但是基于lstm的4.0版本的训练几乎没有,自己深受困扰,后经过自己努力终于成功训练,特地写下来希望可以av帮助需要的人。
首先根据网上的教程安装tesseract4.0以上的版本,这里不详细说明如何安装。
1. 准备训练文本.txt格式的文件和字体文件font,里边包含.ttf格式的字体文件
2. 利用text2image生成.tif和.box文件
从font和.txt所在的目录下,通过cmd进入命令窗口,输入以下内容
text2image --text="D:\new_05\text.txt" --outputbase="D:\new_05\zth.font.exp0" --fontconfig_tmpdir="%temp%"
--font="HGMaruGothicMPRO" --fonts_dir="D:\new_05\font"
其中每个参数的意义为:
–text=“D:\new_0