paddle_图像识别实战(一)----如何根据已有图片生成测试和训练信息并保存到文件

手势识别训练数据准备

最新推荐文章于 2024-09-14 23:45:22 发布

原创

最新推荐文章于 2024-09-14 23:45:22 发布 · 2.1k 阅读

11 ·

CC 4.0 BY-SA版权

文章标签：

#图像识别 #python #深度学习

图像识别实战(一)----如何根据已有图片生成测试和训练信息并保存到文件

提前知道

本实验为手势识别，具体图片可以参考下图，经过训练我们得知，标签为5.

在这里插入图片描述

总体目标

Dataset文件夹下面有0-9十个文件，其中有几十张代表文件夹数值的手势图片。

我们的目标便是将Dataset文件夹下面的图片进行训练，最后得出模型进行预测。

本次目标

将Dataset下面的所有图片的路径及其标签保存到两个文件train.list&test.list中，便于模型训练时调用。

1、导入库

import os
import time
import random
import numpy as np
from PIL import Image
import matplotlib.pyplot as plt
import paddle
import paddle.fluid as fluid
import paddle.fluid.layers as layers
from multiprocessing import cpu_count
from paddle.fluid.dygraph import Pool2D,Conv2D
from paddle.fluid.dygraph import Linear

导入库的时候可以导入多余的库，所以可以放心导入。

2、生成保存信息的文件

data_path = '/home/aistudio/data/data23668/Dataset'
#每个人的数据都可能保存

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

un_lock

关注关注

5
点赞
踩
11

收藏

觉得还不错? 一键收藏
1
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

Paddle进阶实战系列（四）：基于PaddleOCR的体检报告识别

专注大数据与人工智能技术分享，欢迎私信加群互相学习！

08-27

6129

基于PaddleOCR已在文字识别领域取得优秀成果，本项目基于PaddleOCR实现体检报告检测与识别，对数据进行结构化处理，结合CV+NLP技术达到一定识别精度，未来推广应用场景可以基于识别信息做个性化疾病预测与健康推荐。...

Paddle入门实战系列（五）：渔船牌照识别

专注大数据与人工智能技术分享，欢迎私信加群互相学习！

04-20

3894

恭喜你发现宝藏！本专栏系列主要介绍计算机视觉OCR文字识别领域，每章将分别从OCR技术发展、方向、概念、算法、论文、数据集、对现有平台及未来发展方向等各种角度展开详细介绍，综合基础与实战知识。

1 条评论您还未登录，请先登录后发表或查看评论

1 条评论

No:-) 2020.07.06
您好,有您这个图像识别的训练集嘛?

100行代码入门PaddlePaddle图像识别（无痛看代码）

Hunt Counter

10-11

4033

100行代码入门PaddlePaddle图像识别（无痛看代码）导语：PaddlePaddle是由百度研发，国内首个开源的深度学习框架。你在学了N多机器学习课程后，发现要手写一个深度学习程序的时候仍会无从下手。本文目的是解决这种入门问题，适合有深度学习基础但不会写程序，或者会使用其他深度学习框架但想学习PaddlePaddle使用方式的人群。本文将带领大家将大脑中的想法及模型用PaddlePa...

Paddle 图像识别实战

un_lock的博客

05-20

2262

Paddle 图像识别实战本次项目以手势识别为例，希望大家多多交流，fork，互相学习，相互进步数据集用手势分别表示0-9，本别用10个文件夹表示每种手势都有200+张图片，分别对应存储在这十个文件夹中 download提取码：edrz 背景神经网络是模拟人类的神经元所建立的一门学科，而我们如何建立模仿人类大脑的模型呢？神经网络又是如何模仿人类的视觉系统进行图像识别呢？ 图像识别的目的而我们本次实验的目的：通过这2000+数据进行训练，最后得出模型，可以具有识别手势的能力系列目录占位

PadleOCR训练自己的ocr模型之训练步骤

m0_63493883的博客

06-26

1万+

一、前期准备1、代码2、标注工具二、环境配置库的安装：在文件配置完后，训练后时看缺什么库就安什么库三、文件配置。

『paddle』paddleclas 学习笔记：图像识别

libo-coder

07-06

2239

图像识别快速开始1. 图像识别体验1.1 下载、解压 inference 模型与 demo 数据1.2 商品识别与检索1.2.1 识别单张图像2.2.2 基于文件夹的批量识别2. 未知类别的图像识别体验2.1 准备新的数据与标签2.2 建立新的索引库2.3 基于新的索引库的图像识别 1. 图像识别体验检测模型与4个方向 (Logo、动漫人物、车辆、商品) 的识别 inference 模型、测试数据下载地址以及对应的配置文件地址如下。模型简介推荐场景 inference模型预测配置文件构建

【百度飞桨PaddlePaddle】手写图像识别（快速上手）

Akaxi的博客

10-26

3147

【百度飞桨PaddlePaddle】手写图像识别（快速上手）通过手写数字识别任务，了解深度学习中常用的卷积神经网络模型AlexNet的原理和结构，并掌握使用百度AI Studio平台进行模型训练和推理的基本步骤。同时，通过对比实际数据运行结果和理论预期结果，深入理解深度学习模型的优化和调参方法。

【飞桨AI实战】大作业：从0到1搭建一个图像识别系统

u010522887的专栏

05-31

2792

在了解了图像分类和目标检测的基本概念后，很多同学发现现有的算法模型往往只能识别特定类别的目标，面对全新的目标类别，这些训好的模型往往就无能为力了。本次分享将带领大家从 0 到 1 搭建一个面向现实场景的商品识别系统，旨在帮助初学者快速走通从理论到应用的过程，希望对感兴趣的同学提供一点帮助。

深度学习实战14(进阶版)-手写文字OCR识别，手写笔记也可以识别了

微学AI的博客

11-26

4462

大家好，我是微学AI，今天给大家带来手写OCR识别的项目。手写的文稿在日常生活中较为常见，比如笔记、会议记录，合同签名、手写书信等，手写体的文字到处都有，所以针对手写体识别也是有较大的需求。

PaddleClas图像识别系统解析

qq_15821487的博客

04-24

1385

内容什么是图像识别，包括最基本的图像分类，很多其他的，检测分割也可以包括进来，更多的指的是图像检索模型判断 OCR 分割定义根据应用，OCR更多的独立成一个单独的任务解决哪些问题分类问题细粒度的困难分类问题全食谱的分类又增加了食谱，训练没法停止 图像识别关注的问题图像检索架构，和NLP的语义索引架构，一样，原理都是相同的，目标检测，相当于，NLP里面提取一大段文本里面的核心词，文本摘要等等流程 图像识别现状和问题头部市场，人脸识别和文字识别要不应

记使用PaddleOCR模型实现图像识别功能

ytxmn112的博客

09-14

2868

做一个图文识别奖状的功能，找到OCR模型(这里用的是飞桨PaddlePaddle)。然后网上查阅大量资料踩了不少雷和坑，感觉有必要记录一下自己的坎坷经历！Java 实现OCR扫描/识别图片文字_java识别图片里的文字-优快云博客图片内容一般无法编辑，如果想要读取图片中的文本，我们需要用到OCR工具。本文将介绍如何在Java中实现OCR识别读取图片中的文字。_java识别图片里的文字以及paddlenlp和paddlepaddle版本 paddle和oar_蓝月亮的技术博客_51CTO博客。

plt保存图片_PaddlePaddle : AI抠图及图片合成

weixin_39637700的博客

11-27

443

通过预训练模型进行图像的自动抠图及整合。代码已经共享在AIStudio上，链接：https://aistudio.baidu.com/aistudio/projectdetail/242887模型概述 DeepLabv3+ 是Google DeepLab语义分割系列网络的最新作，其前作有 DeepLabv1，DeepLabv2, DeepLabv3。在最新作中，作者通过encoder-decode...

python+paddleocr 进行图像识别、找到文字在屏幕中的位置

热门推荐

pkloi的啵啵啵啵博客

12-06

3万+

最近在做自动化测试，因为是处理过的界面，所以使用pywinauto,LDTP获取控件进行操作的方法不可行，于是选择使用pyautogui进行图像识别与键盘鼠标控制。但是单独使用pyautogui测试效率很低，并且pyautogui图片识别并没有opencv识别率高，所以需要结合其他图像库使用。在使用的过程中发现，仅仅使用图像识别有时匹配度比较低，使用opencv进行图像识别定位，是图像像素太小查找成功的几率大大降低，于是想到使用OCR文本识别的方法对其进行查找，结合在一起使用，大大提高了工作效率。

python使用paddleocr库实现图片文字识别

qq_42092076的博客

07-20

841

PaddleOCR 旨在打造一套丰富、领先、且实用的 OCR 工具库，助力开发者训练出更好的模型，并应用落地。使用paddleOCR实现图片文字识别，并写入到TXT文件中。

(三)标记图像以进行AI模型训练

寒冰屋的专栏

03-11

2391

目录介绍从带有LabelImg的图像生成训练数据集下一步在这里，我们将看到如何正确标记结果图像以训练YOLO模型。介绍在本系列的上一篇文章中，我们为AI模型训练准备了口罩图像。在这一篇中，我们将标记这些图像。如果您对计算机视觉任务不是很熟悉，则可能没有听说过LabelImg。本质上，它是用于计算机视觉的图像标记工具。还有其他功能——但此功能非常易于使用、轻巧，与YOLOv5兼容且免费！请放心，因为此过程将花费数小时。要安装该应用程序，您可以使用多个存储库。使用git clon

PaddleOCR—图片文字识别提取—快速使用教程

weixin_45897172的博客

06-26

2万+

Paddle-OCR 属于Paddle 框架其中的一个应用，Paddle 除了 OCR 之外还有许多其它好玩的模型，关键开发者提供有训练好的预权重文件、降低了使用门槛。

paddle图像分割七天打卡心得

qq_46010030的博客

10-26

521

paddle 关于图像分割七日打卡心得坚持了七天，把百度的打卡内容大概完成了，说实话，这次的内容并不简单，涉及到的知识对于一个大二的人来说具有挑战性！下面我就总结性的写一下培训的大纲图像分割的定义：简单理解就是在一张图片中把不同类别用不同的色块显示出来，并且能通过算法把物体的类别判断出来。这就是我们这七天要学习并且能够实现的东西。既然涉及到判别，那么我们就需要分割的概念基本可以分为5类：图像分割，语义分割，实例分割，视频分割，应用场景分割具体得分割概念呢，你们可以去百度，这里就不一一列出来，

opencv训练自己的分类器_用OpenCV,深度学习和Python进行年龄识别

weixin_39989973的博客

11-23

462

(给Python编程开发加星标，提升编程技能.)在本教程中，您将学习如何使用OpenCV，深度学习和Python执行年龄的自动识别/预测。学完本教程后，您将能够以相当高的精确度去自动预测静态图像文件和实时视频中的人物年龄。要了解如何使用OpenCV和深度学习进行年龄识别，请继续阅读！用OpenCV和深度学习进行年龄识别在本教程的第一部分中，您将学习年龄识别，这包括从图片或视频中自动预测人...

Opencv2利用svm训练自己图片进行数字识别

SWPU_机器人实验室

08-31

6365

了解SVM：https://www.jianshu.com/p/61849d554001 1、获取样本，对自己的样本分类命名，可搜索批量命名方式进行批量命名。注意样本分辨率保持一致 2、获取训练图像并贴上标签样本示例：代码讲解： void get_0(Mat& trainingImages, vector<int>& trainingLabe...

写一段利用paddle-ocr训练图像识别的代码

最新发布

11-11

<think>我们已知用户需要一段利用PaddleOCR训练图像识别的代码示例。根据之前提供的训练步骤，这里重点给出文本识别（Recognition）模型的训练代码示例，因为用户特别提到“图像识别训练”，在OCR上下文中通常指文本识别部分。注意：完整的OCR训练包括文本检测（Detection）和文本识别（Recognition）两个步骤，但用户可能更关注识别部分。以下代码示例将展示如何准备数据、配置模型和启动训练。步骤： 1. 准备数据集：按照PaddleOCR要求的格式组织图像和标注文件。 2. 修改配置文件：选择或创建适合的配置文件（如rec_chinese_lite_train.yml）。 3. 启动训练：使用PaddleOCR提供的训练脚本。由于训练代码通常通过命令行调用，我们将提供命令行示例和必要的Python代码示例（如自定义数据集读取等）。此外，根据引用[1]，PaddleOCR支持多语言场景，我们将以中英文识别为例。注意：以下代码示例假设已经安装PaddleOCR和PaddlePaddle。 </think>以下是一个利用PaddleOCR训练文本识别模型的完整代码示例，结合了数据准备、模型配置、训练和评估的全流程： ### 1. 环境安装与准备 ```bash # 安装PaddlePaddle和PaddleOCR pip install paddlepaddle-gpu==2.5.1 postcard paddleocr==2.7.0.2 ``` ### 2. 数据准备脚本 ```python import os import shutil from paddleocr.ppocr.utils.utility import initial_logger logger = initial_logger() # 创建数据集目录结构 def prepare_dataset(raw_dir, output_dir): os.makedirs(f"{output_dir}/train", exist_ok=True) os.makedirs(f"{output_dir}/val", exist_ok=True) # 生成标注文件（示例） with open(f"{output_dir}/train/train_label.txt", "w") as f_train, \ open(f"{output_dir}/val/val_label.txt", "w") as f_val: for i, img_name in enumerate(os.listdir(raw_dir)): if img_name.endswith(('.jpg', '.png')): # 实际应用中应替换为真实标签 label = "TEXT" + str(i).zfill(3) # 80%作为训练集 if i % 5 != 0: shutil.copy(f"{raw_dir}/{img_name}", f"{output_dir}/train/{img_name}") f_train.write(f"train/{img_name}\t{label}\n") # 20%作为验证集 else: shutil.copy(f"{raw_dir}/{img_name}", f"{output_dir}/val/{img_name}") f_val.write(f"val/{img_name}\t{label}\n") logger.info(f"数据集准备完成，共处理 {i+1} 张图片") # 调用示例 prepare_dataset("/path/to/raw_images", "/dataset/ocr_data") ``` ### 3. 训练配置与执行 ```python # train_rec.py import paddle from paddleocr import PPOCRModelTrainer import os # 设置运行设备 paddle.set_device('gpu') # 或 'cpu' # 文本识别训练配置 model_type = "ch_PP-OCRv4_rec" # 最新轻量级模型[^1] config = { "Global": { "pretrained_model": None, # 可替换为预训练模型路径 "epoch_num": 100, "log_smooth_window": 20, "print_batch_step": 10, "save_model_dir": "./output/rec_model", "save_epoch_step": 5, "eval_batch_step": [0, 1000], "cal_metric_during_train": True, "character_dict_path": "ppocr/utils/ppocr_keys_v1.txt", "max_text_length": 25, "infer_mode": False, "use_space_char": True }, "Optimizer": { "name": "Adam", "beta1": 0.9, "beta2": 0.999, "lr": { "name": "Cosine", "learning_rate": 0.001, "warmup_epoch": 5 }, "regularizer": { "name": "L2", "factor": 0.00001 } }, "Train": { "dataset": { "name": "SimpleDataSet", "data_dir": "/dataset/ocr_data", "label_file_list": ["./dataset/ocr_data/train/train_label.txt"], "transforms": [ {"DecodeImage": {"img_mode": "BGR", "channel_first": False}}, {"RecResizeImg": {"image_shape": [3, 48, 320]}}, {"KeepKeys": {"keep_keys": ["image", "label"]}} ], "batch_size": 64, "shuffle": True }, "loader": { "num_workers": 8, "use_shared_memory": True } }, "Eval": { "dataset": { "name": "SimpleDataSet", "data_dir": "/dataset/ocr_data", "label_file_list": ["./dataset/ocr_data/val/val_label.txt"], "transforms": [ {"DecodeImage": {"img_mode": "BGR", "channel_first": False}}, {"RecResizeImg": {"image_shape": [3, 48, 320]}}, {"KeepKeys": {"keep_keys": ["image", "label"]}} ], "batch_size": 64 }, "loader": { "num_workers": 4 } } } # 初始化训练器并开始训练 trainer = PPOCRModelTrainer(config, model_type) trainer.train() ``` ### 4. 模型评估与推理 ```python # eval_and_infer.py from paddleocr import PaddleOCR, draw_ocr from PIL import Image # 1. 加载训练好的模型 ocr = PaddleOCR( rec_model_dir='./output/rec_model/best_accuracy', use_angle_cls=True, lang='ch' ) # 2. 评估模型性能 eval_results = trainer.eval() print(f"模型准确率: {eval_results['acc']:.2%}") # 3. 单图推理示例 result = ocr.ocr('test_image.jpg', cls=True) image = Image.open('test_image.jpg').convert('RGB') boxes = [line[0] for line in result[0]] txts = [line[1][0] for line in result[0]] scores = [line[1][1] for line in result[0]] # 可视化结果 im_show = draw_ocr(image, boxes, txts, scores) im_show = Image.fromarray(im_show) im_show.save('result.jpg') ``` ### 关键参数说明 1. **模型选择**： - `ch_PP-OCRv4_rec`：最新轻量级识别模型，平衡精度与速度[^1] - `ch_ppocr_server_v2.0_rec`：高精度服务器版模型 2. **训练优化**： - **学习率调度**：余弦退火(Cosine)配合5轮预热 $$ \eta_t = \eta_{min} + \frac{1}{2}(\eta_{max} - \eta_{min})(1 + \cos(\frac{T_{cur}}{T_{max}}\pi)) $$ - **数据增强**：`RecResizeImg`自动调整输入尺寸 3. **部署优化**： ```bash # 模型导出为推理格式 paddleocr --rec_model_dir output/rec_model/best_accuracy \ --output inference/rec_model \ --rec_image_shape 3,48,320 ``` > **注意**：实际使用时需调整以下参数： > - 数据路径(`data_dir`) > - 字符字典路径(`character_dict_path`) > - 输入图像尺寸(`image_shape`) > - 批量大小(`batch_size`)根据显存调整