看过一些其他博客关于tesseract-ocr的介绍,关于训练语言库的方法都类似。但是,由于一些小地方的错误,都没有出现预期的结果。比如定义字体特征文件,文件的后缀为.txt文件,具体怎么设置可以详看http://blog.youkuaiyun.com/firehood_/article/details/8433077的文章。我根据这个步骤下来,只有到最后一步“7.生成语言文件”时才出现了错误。它的批处理文件里是这样的内容:
- rem 执行改批处理前先要目录下创建font_properties文件
- echo Run Tesseract for Training..
- tesseract.exe num.font.exp0.tif num.font.exp0 nobatch box.train

在使用tesseract-ocr训练语言库过程中,遇到批处理文件执行错误,特别是在mftraining阶段提示找不到font_properties。通过检查发现批处理文件中缺少了font_properties文件的.txt后缀。修正这一细节后,成功执行了训练,生成了所需的语言文件。
最低0.47元/天 解锁文章
3748

被折叠的 条评论
为什么被折叠?



