paddleocr自定义字典训练自己的数据集(rec模块)

博客介绍了使用PaddleOCR 2.3版本进行文字检测和识别的过程。作者针对det模块速度慢的问题,训练了rec模块,并定制了包含60个字符的字典。通过生成标注图片和进行切割,最终训练得到的模型在测试集上达到了约99.8%的识别准确率。文章还提供了MATLAB代码示例,用于生成训练和测试用的图片及其标注文件。

    下载的paddleocr的2.3版本。地址是paddleocr
    检测模块用的是
检测

    det模块跑的慢,所以训练了一下rec模块。
    默认的字典在ppocr_keys_v1.txt文件里面,6000多个符号。有些字识别的不是很好。从中挑选了60个字符,以同样的格式保存了一个txt文件(UTF-8格式)。在配置文件中把字典换为保存的txt文件名。
字典
    这里为了方便生成训练图片只挑选了60个字。只在这里改字典好像在识别时是不起作用的,还是会用ppocr_keys_v1.txt文件识别,需要在paddleocr.py文件中做修改如下(或许有其它修改方法):
    把

    for action in parser._actions:
        if action.dest in ['rec_char_dict_path', 'table_char_dict_path']:
            action.default = None

    修改为:

    for action in parser._actions:
        if action.dest in ['table_char_dict_path']:
            action.default = None

    训练的步骤如下:
    1.生成了包含文字的图片和

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值