tesseract训练脚本

本文介绍使用Tesseract OCR进行文字识别训练的具体步骤,包括从图像生成训练数据到最终生成训练文件的全过程。涉及创建box文件、特性提取、形状聚类等关键技术环节。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

tesseract训练脚本

#!/bin/sh
lang=xylinklang
font=xylinkfont

#合并多张图到tif
#xylinklang.xylinkfont.exp0.tif

#生成box文件
tesseract ${lang}.${font}.exp0.tif ${lang}.${font}.exp0 -l eng -psm 7 batch.nochop makebox

#生成${font}_properties
echo ${font} 0 0 0 0 0 >${font}_properties

#生成tr训练文件
tesseract ${lang}.${font}.exp0.tif ${lang}.${font}.exp0 -l eng -psm 7 nobatch box.train

#生成unicharset字符集文件
unicharset_extractor ${lang}.${font}.exp0.box

#生成shape文件
shapeclustering -F ${font}_properties -U unicharset -O ${lang}.unicharset ${lang}.${font}.exp0.tr

#生成聚集字符特征文件
mftraining -F ${font}_properties -U unicharset -O ${lang}.unicharset ${lang}.${font}.exp0.tr

#生成字符正常化特征文件
cntraining ${lang}.${font}.exp0.tr 

#重命名文件
mv normproto ${font}.normproto
mv inttemp ${font}.inttemp
mv pffmtable ${font}.pffmtable 
mv unicharset ${font}.unicharset
mv shapetable ${font}.shapetable

#合并训练文件
combine_tessdata ${font}.

官方命令参考:
https://github.com/tesseract-ocr/tesseract/wiki/Training-Tesseract-3.03%E2%80%933.05#training-procedure

### Tesseract OCR 训练教程和资源 #### 安装必要的软件包 为了训练Tesseract OCR引擎,首先需要安装一些必备的工具。这包括但不限于Tesseract本身以及Java JDK。 对于Windows用户来说,可以从指定网站下载并安装最新版的Tesseract-OCR设置程序[^4]。同样地,也需要获取适合操作系统的Java开发套件(JDK),其链接也已在参考资料中给出。 #### 获取训练所需的文件 准备阶段还包括获得用于训练的数据集。这些数据集中包含了不同语言的文字样本,比如中文(`chi_sim.traineddata`)、英文(`eng.traineddata`)和其他特殊用途的数据(`osd.traineddata`)[^1]。上述提到的各种`.traineddata`文件可以在多个在线平台上找到,例如GitCode上就有专门针对中文环境优化过的训练库可供下载[^3]。 #### 使用jTessBoxEditor编辑器创建字形框文件 一旦拥有了基础的语言模型之后,则可以通过图形界面的应用程序——如jTessBoxEditor来辅助制作或调整字符边界框(box file)。这个过程涉及标注图像中的每一个字符位置及其对应的Unicode编码值,从而形成精确的教学材料供后续学习使用。 #### 开始正式训练流程 当所有的前期准备工作都完成后,就可以按照官方文档指导启动实际的训练环节了。此部分通常涉及到命令行指令的操作,具体步骤如下所示: ```bash tesseract eng.training_text eng.box nobatch box.train.stderr unicharset_extractor *.box shapeclustering -F font_properties -O eng.unicharset eng.traineddata mftraining -F font_properties -U unicharset -O eng.inttemp *.tr cntraining *.tr ``` 以上脚本会依次执行生成BOX文件、提取统一字符集合、聚类形状特征等一系列任务直至完成整个训练周期。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值