Tesseract-OCR 4.0LSTM训练流程 (Windows环境下)

本文介绍了在Windows环境下使用Tesseract-OCR 4.0 LSTM进行训练的详细步骤,包括生成.tif和.box文件、.lstmf文件、提取.lstm文件、创建训练文件列表、训练模型、合并文件生成新的.traineddata,并最终应用于OCR识别。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

**

Tesseract-OCR 4.0LSTM训练流程 (Windows环境下)**

目前网上关于tesseract3.0版本的训练过程很多,但是基于lstm的4.0版本的训练几乎没有,自己深受困扰,后经过自己努力终于成功训练,特地写下来希望可以av帮助需要的人。

首先根据网上的教程安装tesseract4.0以上的版本,这里不详细说明如何安装。

1. 准备训练文本.txt格式的文件和字体文件font,里边包含.ttf格式的字体文件
在这里插入图片描述
在这里插入图片描述
2. 利用text2image生成.tif和.box文件
从font和.txt所在的目录下,通过cmd进入命令窗口,输入以下内容

text2image --text="D:\new_05\text.txt" --outputbase="D:\new_05\zth.font.exp0" --fontconfig_tmpdir="%temp%"
 --font="HGMaruGothicMPRO" --fonts_dir="D:\new_05\font"

其中每个参数的意义为:

–text=“D:\new_0

评论 80
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值