下载的paddleocr的2.3版本。地址是paddleocr
检测模块用的是

det模块跑的慢,所以训练了一下rec模块。
默认的字典在ppocr_keys_v1.txt文件里面,6000多个符号。有些字识别的不是很好。从中挑选了60个字符,以同样的格式保存了一个txt文件(UTF-8格式)。在配置文件中把字典换为保存的txt文件名。

这里为了方便生成训练图片只挑选了60个字。只在这里改字典好像在识别时是不起作用的,还是会用ppocr_keys_v1.txt文件识别,需要在paddleocr.py文件中做修改如下(或许有其它修改方法):
把
for action in parser._actions:
if action.dest in ['rec_char_dict_path', 'table_char_dict_path']:
action.default = None
修改为:
for action in parser._actions:
if action.dest in ['table_char_dict_path']:
action.default = None
训练的步骤如下:
1.生成了包含文字的图片和

博客介绍了使用PaddleOCR 2.3版本进行文字检测和识别的过程。作者针对det模块速度慢的问题,训练了rec模块,并定制了包含60个字符的字典。通过生成标注图片和进行切割,最终训练得到的模型在测试集上达到了约99.8%的识别准确率。文章还提供了MATLAB代码示例,用于生成训练和测试用的图片及其标注文件。
最低0.47元/天 解锁文章
&spm=1001.2101.3001.5002&articleId=123451614&d=1&t=3&u=cb78bae5f716499bb609ce5c629ae99b)
4724

被折叠的 条评论
为什么被折叠?



