- 博客(5)
- 收藏
- 关注
原创 快速微调PP-OCR文本识别模型-用自己的数据集
本文介绍了基于PP-OCRv5模型进行中文签名识别的微调方法。首先详细说明了在Ubuntu系统下的环境配置步骤,包括创建conda环境、安装PyTorch和PaddlePaddle框架。然后指导下载PaddleOCR代码和预训练模型(PP-OCRv5_server_rec),并说明如何准备签名数据集及标注文件。文章重点演示了模型训练、评估和导出的完整流程,包括单卡训练命令、验证集评估和模型导出为推理格式。最后提供了可参考的技术文章,为开发者快速实现OCR模型微调提供了实用指南。
2025-08-07 15:12:19
2525
原创 手把手教你如何跑通一个手写中文汉字识别模型-OCR识别【pytorch】
本文基于PyTorch实现了行文本手写中文汉字识别系统,在CASIA-HWDB2.0数据集上达到86.89%的准确率。详细介绍了数据预处理流程:包括数据集转换、标签合并、字符集生成、图像高度统一为128像素,并按7:2:1比例划分训练/验证/测试集。采用GitHub开源的手写中文OCR模型,修改了原代码中的CTCLoss和APEX部分,调整学习率为0.01。开发环境为Ubuntu系统、PyTorch 2.0.1和RTX 3080Ti显卡。作者指出当前数据集仅使用4,200张图像,若增加数据量和字符集规模可进
2025-07-25 14:57:05
2729
1
原创 CASIA-HWDB2.0数据集转换-实现行提取与ont-hot编码(python)
摘要 本文介绍了CASIA-HWDB2.0手写数据集的转换处理方法。针对.dgrl格式数据,通过改进的Python脚本实现了行文本提取,将每行手写内容转换为JPG图像和对应的TXT文本文件。同时详细说明了如何生成one-hot编码文件。作者分享了完整的代码实现,包括中文字符解析、图像尺寸处理等关键步骤,并展示了转换后的目录结构(包含图像和标签两个子文件夹)。该方法可为手写文字识别研究提供预处理支持,文末还提供了原始数据集下载链接和参考资料的出处说明。
2025-07-17 11:09:26
1939
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅