看过一些其他博客关于tesseract-ocr的介绍,关于训练语言库的方法都类似。但是,由于一些小地方的错误,都没有出现预期的结果。比如定义字体特征文件,文件的后缀为.txt文件,具体怎么设置可以详看http://blog.youkuaiyun.com/firehood_/article/details/8433077的文章。我根据这个步骤下来,只有到最后一步“7.生成语言文件”时才出现了错误。它的批处理文件里是这样的内容:
- rem 执行改批处理前先要目录下创建font_properties文件
- echo Run Tesseract for Training..
- tesseract.exe num.font.exp0.tif num.font.exp0 nobatch box.train