从头开始训练自己的 Tesseract 5 LSTM 识别库（超详细）

原创

已于 2022-04-18 20:52:10 修改 · 1.2w 阅读

60 ·

CC 4.0 BY-SA版权

文章标签：

#算法

于 2022-04-11 17:09:32 首次发布

本文详细介绍了如何从头训练Tesseract 5 LSTM OCR识别库，包括准备工作、生成字符集文件、创建starter traineddata、生成训练文件、训练过程以及评估和生成标准traineddata。通过训练，提高了OCR的识别精度，特别是对于特定字库的识别。

最新工作中涉及到OCR的内容，用了百度的OCR精度不错，但是速度有点慢，看网上有提到Tesseract这一开源的项目，下载试了一试发现速度是比百度快不少，但是精度差很多，所以研究了下怎么可以提高识别的精度，发现可以通过训练识别库的方式，所以才有了这篇文章，按Tesseract官方的说法，训练有三种方式：一从头开始训练（官方不推荐使用此方法）；二对现有模型进行微调训练；三对现有模型的部分神经元网络进行训练，本文是使用的方式一，从头始开始训练完全符合自己需要的字库，废话少说下面开始一步步进行说明。

一、准备工作

1、相关程序和资源

tesseract-ocr：tesseract-ocr-w64-setup-v5.0.1.20220118.exe
tessdata_best：https://github.com/tesseract-ocr/tessdata_best
langdata_lstm：https://github.com/tesseract-ocr/langdata_lstm

文本编辑器：我使用的是notepad++（这个按个人使用的习惯，没有要求），还要用到cmd或者Power Shell，另外jTessBoxEditor这个工具也可下载（需要Java环境），虽然本例子中并不需要jTessBoxEditor，但是可用它打开图片+box文件看看。

2、安装Tesseract-OCR

Tesseract-OCR安装过程中需要选择中文的支持，安装完成后在环境变量中增加路径设置，方便cmd中的使用，这一过程网上有详细的说明，不会的百度一下即可。

3、建立目录结构

在e:盘新建文件夹t，把下载的tessdata_best和langdata_lstm放入，新建output和tmp文件夹，注意下面的所有步骤都是按e:\t这个根路径进行的，都是用的绝对路径，用其它路径当做根目录的请自行修改路径，当然也可以使用相对路径，但是我不喜欢相对路径（需要考虑相对的位置，容易出错），最始的目录结构如下：
E:\T
├─langdata_lstm
├─output
├─tessdata_best
└─tmp

4、处理tessdata_best简体中文库chi_sim.traineddata

1)解包简体中文库chi_sim.traineddata
combine_tessdata -u e:\t\tessdata_best\chi_sim.traineddata e:\t\tessdata_best\chi_sim，执行完成上面这条命令后，就会把chi_sim.traineddata解为几个文件，具体文件内容可以自己去e:\t\tessdata_best文件夹中去看一看。

2)转化dawg字典文件为文本文件（Directed Acyclic Word Graph）
文字字典：
dawg2wordlist e:\t\tessdata_best\chi_sim.lstm-unicharset e:\t\tessdata_best\chi_sim.lstm-word-dawg e:\t\tessdata_best\word.txt
数字字典：
dawg2wordlist e:\t\tessdata_best\chi_sim.lstm-unicharset e:\t\tessdata_best\chi_sim.lstm-number-dawg e:\t\tessdata_best\number.txt
标点符号字典：
dawg2wordlist e:\t\tessdata_best\chi_sim.lstm-unicharset e:\t\tessdata_best\chi_sim.lstm-punc-dawg e:\t\tessdata_best\punc.txt

5、研究tessdata_best的字符集文件
用文本编辑器打开字符集文件，就是e:\t\tessdata_best\chi_sim.lstm-unicharset，可以看到4022这个数字（这是一个重要的数字），第5行是字母“S”，第4023行是汉字“掺”，从“S”到“掺”这4019行就是tessdata_best中文的全部编码，同理也可以自己查看一下tessdata_fast中文编码也是4019个，tessdata多一些有5071个（tessdata的文件名为chi_sim.unicharset），编码文件内容看来没有什么规律，为了方便看少了什么字，本人进行了变换处理（只保留编码字符并按GB2312顺序排序），结果如下：字符数字标点符号共有120个（其中多了一个GB2312中没有的〇），汉字有3899个，可GB2312有汉字6763个（一级汉字3755，二级汉字3008个），这个差距有点大呀，所以tessdata汉字识别精度不高在所难免（字符集中都没有还怎么识别呀）。

下面开始关键的步骤

二、生成字符集lstm-unicharset文件

1、生成字符集txt文件
把字符集所要包含的数字、字母、标点符号和汉字，保存在e:\t\chi_sim.txt，要求无重复内容，并且中间无空格、回车换行或类似tab等无法显示的特殊符号，本例子中编辑了一些数字、字符、标点符号和

最低0.47元/天解锁文章

36 条评论

辣个难忍 2023.11.14
combine_tessdata -u e:\t\tessdata_best\chi_sim.traineddata e:\t\tessdata_best\chi_sim 执行解压后无法生产 \chi_sim.lstm-unicharset 文件，求解答
- sy774253549回复辣个难忍 2023.11.20
  多半是你chi_sim包的问题，换成博主链接中提供的那个包

地球上写代码的小马 2023.04.17
大佬，三，2报错Error during conversion of wordlists to DAWGs!!是什么问题[face]emoji:035.png[/face]
- 小抛回复地球上写代码的小马 2023.12.07
  我也是，请问解决了吗

XQ0228 2023.03.15
博主你好：我执行这个命令，结果没有报错，也没有文件生成，是什么原因，可以帮我解答一下吗？ 2、生成图片+box文件 text2image命令默认使用ptsize=12，300 DPI进行处理，换算成72 DPI就是ptsize=50，但是有一些字显示的不清楚所以设置ptsize=18进行渲染，这也可能是我使用黑体字笔画比较粗有关，这个要根据实际的选择的字体进行设置。 [code=plain] text2image --text e:\t\train.txt --outputbase e:\t\train --fonts_dir C:\Windows\Fonts --font="simhei" --ptsize 18 --fontconfig_tmpdir e:\t\tmp [/code]

weixin_13714519204 2022.11.14
有生成好的模型文件吗？和官网原生模型对比，有改善吗？

cccccssssshh 2022.10.13
大佬您好，请问您有时间可以分享一下第二种方法吗，对现在模型进行微调训练的方法

阿猫阿狗的朋友阿猪 2022.09.07
大佬，你这模型训练好后，有实际用过么？不知道为啥我训练好，合成为.traineddata文件使用后，错误率极高，对之前训练用的图片也是基本全错，可是评估和训练都已经显示错误率为0了。
- sy774253549回复阿猫阿狗的朋友阿猪 2023.11.19
  我也是这种情况[face]emoji:011.png[/face]
- 阿猫阿狗的朋友阿猪回复watt 2022.09.09
  不不 , 我就是为了尽快看到学习成功 , 所以我只做了数字的. 而且训练完成 , 我生成.traineddata文件使用 , 是对之前训练用的图片测试, 都几乎全错. 我已经懵逼了
- watt回复阿猫阿狗的朋友阿猪 2022.09.09
  说明你训练的不够好，我想有几个原因，一是训练用图生成的不好，图片生成过程中要想办法增加一定的抖动量，即同一个字每次生成的图都不一样，二是训练用例的量或者复杂度不足，如果字符集中字符数量到了一定量后是很难训练到错误率为0的，特别是中文相似的字太多。

m0_72224258 2022.06.21
生成字符集txt文件: 把字符集所要包含的数字、字母、标点符号和汉字，保存在d:\t\chi_sim.txt 请问字符集所要包含的内容到底是什么？
- netsee1回复m0_72224258 2022.06.23
  二，2里的chi_sim.txt就是字典，，你后期要识别的文字或字符，字母等这个文件里要有，不然就识别不了，就像你查字典一样，字典没有，你也查不到，但好像不是所有字符都能放进去，有些字符放进去，这一步生成的box会有空白字符（这个空白字符还不是一个两个，一个是空白后边可能都是空白了）（当然如果你会调整也是可以的）
- netsee1回复m0_72224258 2022.06.23
  二，2那里生产的字库文件内容中要有这个'诶'吧
- watt回复m0_72224258 2022.06.22
  你把best的4019个字符编成一个一行txt文件，然后把“诶”加进去，新的4020个字符就是你要生成的字符集txt，就是从第二步开始就行了。最后训练时要用到--continue_from和--old_traineddata这两个参数让训练程序从现有的的best训练文件继续训练（当然训练文件也要增加诶字）。
- watt回复m0_72224258 2022.06.22
  是有关的，按你的说明是微调，生成字符集后是用原中文tessdata_best继续训练，应该设置--continue_from和--old_traineddata这两个参数，有时间再写一篇微调的。
- m0_72224258回复watt 2022.06.22
  combine_lang_model后生成的chi_sim.traineddata只有955KB
- m0_72224258回复watt 2022.06.22
  是不是要在步骤三中1、生成字典文本文件中的word.txt添加'诶'？ combine_lang_model那条命令中的chi_sim.lstm-unicharset一定要在步骤二中生成吗？所以我才想问字符集所要包含的内容到底是什么？
- m0_72224258回复watt 2022.06.22
  我训练的图片中有'诶'这个汉字，训练后会报错Encoding of string failed!, 找到原因为官方chi_sim.traineddata没有'诶'。如何在chi_sim.traineddata中添加'诶'？是不是和三、生成starter traineddata文件的步骤有关
- watt回复m0_72224258 2022.06.22
  你所有要识别的内容

netsee1 2022.06.20
[code=plain] At iteration 38645/76200/76200, Mean rms=0.015000%, delta=0.125000%, BCER train=0.500000%, BWER train=15.562000%, skip ratio=0.000000%, New worst BCER = 0.500000 wrote checkpoint. At iteration 38658/76300/76300, Mean rms=0.015000%, delta=0.117000%, BCER train=0.473000%, BWER train=14.912000%, skip ratio=0.000000%, New worst BCER = 0.473000 wrote checkpoint. At iteration 38667/76400/76400, Mean rms=0.014000%, delta=0.114000%, BCER train=0.463000%, BWER train=14.175000%, skip ratio=0.000000%, New worst BCER = 0.463000 wrote checkpoint. At iteration 38673/76500/76500, Mean rms=0.014000%, delta=0.105000%, BCER train=0.429000%, BWER train=12.802000%, skip ratio=0.000000%, New worst BCER = 0.429000 wrote checkpoint. 2 Percent improvement time=13756, best error was 2.44 @ 24927 At iteration 38683/76600/76600, Mean rms=0.013000%, delta=0.087000%, BCER train=0.356000%, BWER train=11.102000%, skip ratio=0.000000%, New best BCER = 0.356000 wrote best model:.\output\o [/code]
- netsee1回复watt 2022.06.20
  好吧，，看来就是耗时，同时训练的时候发现output也很占容量，都已经快到34G了
- watt回复netsee1 2022.06.20
  建议你把指标先定到0.1，看看0.1需要多少时间，达到后再0.01，最终0.001，0.001不好达到。学习到一定时间后BCER这个指标不好下降（也不是一直是下降的，还会上升），38673/76500/76500，这几个数中最小的那个数到一定次数后非常不容易增加（如果没记错应该是学习完成的次数）

netsee1 2022.06.20
帮忙看看下边的回显是不是还算正常的？训练了一个星期了，，11万字在训练，还没结束 --target_error_rate 0.001 [code=plain] At iteration 38605/75800/75800, Mean rms=0.016000%, delta=0.156000%, BCER train=0.583000%, BWER train=19.182000%, skip ratio=0.000000%, New worst BCER = 0.583000 wrote checkpoint. At iteration 38616/75900/75900, Mean rms=0.016000%, delta=0.152000%, BCER train=0.574000%, BWER train=18.457000%, skip ratio=0.000000%, New worst BCER = 0.574000 wrote checkpoint. At iteration 38626/76000/76000, Mean rms=0.016000%, delta=0.150000%, BCER train=0.572000%, BWER train=18.057000%, skip ratio=0.000000%, New worst BCER = 0.572000 wrote checkpoint. At iteration 38635/76100/76100, Mean rms=0.015000%, delta=0.134000%, BCER train=0.540000%, BWER train=16.887000%, skip ratio=0.000000%, New worst BCER = 0.540000 wrote checkpoint. At iteration 38645/76200/76200, Mean rms=0.015000%, delta=0.125000%, BCER train=0.500000%, BWER train=15.562000%, skip ratio=0.000000%, New worst BCER = 0.500000 wrote checkpoint. [/code]
- watt回复netsee1 2022.06.20
  是正确的，距离目标0.001还需要大量的时间，你目前才7万6千多条还差得远呢，BCER train=0.572000看这个指标。

netsee1 2022.06.10
五的2步，net_spec参数，跟三的第2步中的version_str，，两个参数中括号中的内容是不是都是神经网络参数？是不是要一致的（我看你的有差别）？
- watt回复netsee1 2022.06.15
  --version_str，，应该还是有影响的，，我修改了一下中括号中的内容（那个170除外），我可以肯定的告诉你，这个参数可以随便设置没有影响，如果后面查看不成功是别的原因。
- watt回复netsee1 2022.06.15
  net_spec这个是有格式要求的，不知道具体的参数是不能修改的，我基本上读遍了官方的文档也没见到介绍神经元参数的说明，最终才参考官方的文件得到这个参数，version_str是版本信息可以随便设置，不设置也没关系没有影响，net_spec根据我的试验最后的数值（比如170）错了也没有影响（就是多了一个警告），net_spec中其它的参数实有搞明白什么用处（就是知道英文版的参数可以设置小一些）。net_spec的参数影响最后识别库的大小。
- netsee1回复watt 2022.06.14
  --version_str，，应该还是有影响的，，我修改了一下中括号中的内容（那个170除外），后边读取chi_sim.traineddata版本信息查看的时候一直查看不成功
- netsee1回复watt 2022.06.13
  --version_str "优快云:watt:2022.04[1,48,0,1C3,3Ft16Mp3,3TxyLfys64Lfx96RxLrx96Lfx512O1c170]" 包括其中中括号中的内容吗？
- watt回复netsee1 2022.06.10
  version_str是可以随便写的是版本信息，不用与net_spec参数一样。