tesseract-ocr训练步骤

本文详细介绍了如何使用jtessboxeditor生成OCR训练数据的过程,包括准备训练样品图片、生成tif文件、生成box文件、生成train文件等关键步骤。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1、准备训练样品图片

用画图板做五个数字图,保存为tif格式,为了方便写命令,直接放到jtessboxeditor的tesseract-ocr文件夹内。

2、生成tif文件

安装java虚拟机,配置环境变量,解压jtessboxeditor后双击打开jtessboxeditor.jar,tools-merge tiff,选择那五幅图片,生成tif文件。

生成的文件名格式:字体名.语言名.版本号(lan.new.exp0.tif)。(此处图片要是tif类型,不能直接修改jpg类型后缀,无效)

3、生成box文件

控制台进入jtessboxeditor-tesseract-ocr文件夹,输入命令tesseract  lan.new.exp0.tif lan.new.exp0 batch.nochop makebox

用jtessboxeditor打开box文件,挨个修改字符,修改后save一下。


4、生成train文件

同3进入控制台,输入命令tesseract lan.new.exp0.tif lan.new.exp0 box.train

生成tr文件(此处很多教程都加了nobatch,而我一直提示params not found没法建立,最后看官网教程去掉这个参数

5、定义字体特征文件

建立一个文件font_properties,内容是new 0 0 0 0 0

6、生成语言文件

创建一个批处理文件,内容如下:

rem 执行改批处理前先要目录下创建font_properties文件  
echo Run Tesseract for Training..  
tesseract.exe lan.new.exp1.tif lan.new.exp1 nobatch box.train  
  
echo Compute the Character Set..  
unicharset_extractor.exe lan.new.exp1.box  
mftraining -F font_properties -U unicharset -O num.unicharset lan.new.exp1.tr  
  
echo Clustering..  
cntraining.exe lan.new.exp1.tr  
  
echo Rename Files..  
rename normproto LAN.new.normproto  
rename inttemp LAN.new.inttemp  
rename pffmtable LAN.new.pffmtable  
rename shapetable LAN.new.shapetable   
  
echo Create Tessdata..  
combine_tessdata.exe num.  

7、执行一下,可以识别了。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值