PaddleOCR训练自己的数据集(已踩坑windows10)

1.准备数据集

   

链接放在这里:PaddleOCR/README_ch.md at release/2.1 · PaddlePaddle/PaddleOCR · GitHub

down下来之后准备好自己的数据集  

这个crop_img文件夹是通过半自动化处理后把标注的东西截取保存的文件

接下来是PPOCRLabel的打标内容:

命令行附在下面:

cd ./PPOCRLabel #将目录先切换到PPOCRLabel下

python PPOCRLabel.py --lang ch

会出现自动打标的页面

 文件>打开目录>选择文件夹>左下角的自动标注

 注意! 因为是半自动化标注 所以还要依次检查一边 确认后点击右下角的确认按钮

 

 注意:如果识别或者标记不对的地方都需要自己改动

最后 点击 文件>保存标记结果>保存识别结果

接下来在你的源文件夹下可以看到生成了这些内容:

Cache.cach:保存的gt框的坐标

fileState.txt:类别标签

Label.txt:保存的gt框的坐标(一般用的都是这个)

rec_gt.txt:文本识别识别结果(对应的是文本识别)

踩坑1:  你的图片需要和这些.txt等文件是同一级目录

2.需要更改配置文件的参数

configs>det>det_mv3_db.yml 文件模型

踩坑2: 如果模型地址写错 会出现找不到 .pdparams的路径,也不需要加pdparams的后缀名

 这里是预训练模型

下载模型地址:

PaddleOCR/models_list.md at release/2.1 · PaddlePaddle/PaddleOCR · GitHub

 

 踩坑3:我是下载这一个,注意是训练模型 是负责训练你的数据 不是推理模型

data_dir 需要修改成自己的

label_file_list 自己标签的位置

踩坑4:  data_dir   不要写到自己的图片目录下  报错信息如下

 

 建议调成1,因为我的电脑带不起来16,8,4线程

输入命令: python tools/train.py -c configs/det/det_mv3_db.yml

出现这种就可以了

最后训练好可以在./output/db_mv3 下面的yml中查看训练的配置文件

这里是我训练完1200个批次后 生成的文件

需要将生成的转换成为infer文件 命令如下: 

python tools/export_model.py -c configs/det/det_mv3_db.yml -o Global.checkpoints=./output/db_mv3/iter
_epoch_1200 Global.save_inference_dir=./output/db_mv3_infer/

 这里转换后的infer文件

换成自己的infer文件 

看一下这里的检测效果

 这里的识别没有写,默认的是官网 可以看到准确率很高

3.模型的识别也是一样的流程

4.总结:

The ``path`` (G:/PaddleOCR-release-2.1/pretrain_models/MobileNetV3_large_x0_5_pretrained.pdparams) to loa d model not exists.‘’

出现这种错误 请看2步骤的踩坑2

后续的报错信息大家可以下面留言!误人子弟的地方希望及时指出 

### PaddleOCR 自定义数据集训练指南 对于希望利用 PaddleOCR 训练自定义数据集的情况,可以遵循特定流程来准备和处理数据PaddleOCR 提供了一套完整的工具链用于简化这一过程。 #### 数据标注与准备 为了使模型能够学习到有效的特征表示,在开始之前需先准备好高质量的标注数据。推荐使用官方提供的 `PPOCRLabel` 工具来进行图像中的文字区域标记工作[^2]。此工具位于 GitHub 上的 PaddleOCR 仓库中,提供了图形界面让用户直观地标记图片内的文本框位置及其对应的内容字符串。 完成标注之后,应当按照 PaddleOCR 所接受的标准格式整理这些信息。具体来说,每张图应有一个对应的标签文件(.txt),其中每一行描述了一个单独的文字实例的位置坐标(xmin, ymin, xmax, ymax) 及其识别结果(text)[^3]。 #### 环境配置与依赖安装 确保操作系统环境已正确设置好 Python 解释器及相关库版本。针对 Ubuntu 用户而言,建议参照官方文档说明逐步搭建必要的开发环境并安装所需软件包,这一步骤至关重要以保障后续操作顺利进行[^1]。 #### 开始训练 当一切准备工作就绪后,则可通过调整参数配置文件来启动实际训练任务。通常情况下,默认设定已经过优化适用于大多数场景;然而根据不同需求可能还需要进一步微调超参选项以便获得更佳性能表现。 ```bash # 启动训练命令样例 python tools/train.py -c configs/rec/chinese_lite_train.yml --use_gpu=true ``` 上述指令展示了如何基于预设好的 YAML 配置执行一次典型的 OCR 模型训练会话。请注意替换路径指向本地存储的具体实验方案文件,并根据实际情况决定是否启用 GPU 加速功能。
评论 100
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

芝士是只猫

开源使得世界变得更美丽

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值