keras 视觉 captcha_ocr 案例分析

「已注销」

已于 2023-06-17 15:23:24 修改

阅读量397

点赞数

分类专栏： keras 案例分析文章标签： keras ocr 深度学习

于 2023-06-10 18:05:52 首次发布

本文链接：https://blog.youkuaiyun.com/m0_37573740/article/details/131139211

版权

该文介绍了使用Keras构建的验证码识别系统，通过预处理、CNN特征提取、RNN序列处理和CTC解码实现图像到文本的转换。模型利用预训练的ResNet参数加速训练，并通过准确率和检测率进行评估。最后，文章展示了数据预处理、模型构建、训练过程以及使用训练好的模型进行预测的步骤。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

请添加图片描述

captcha_ocr 是一个Keras实现的验证码识别示例，目的是识别包含数字和字母的验证码图像，将其转换为文本。该示例主要包括以下步骤：

将原始的验证码图像进行预处理，包括二值化、去噪、裁剪、缩放等操作，以便于后续的模型训练和预测。
使用卷积神经网络（CNN）对预处理后的图像进行特征提取，提取出相应的特征向量。
使用循环神经网络（RNN）对特征向量序列进行处理，以便于将其转化为文本序列。
使用类似于CTC（Connectionist Temporal Classification）的方法对文本序列进行解码，得到识别结果。

模型的评价准则采用准确率和检测率来评估。整个模型的训练过程使用了类似于迁移学习的方法，从已训练过的ResNet网络上预训练模型参数，加快模型训练的速度和效果。

导入依赖

import os
import numpy as np
import matplotlib.pyplot as plt

from pathlib import Path
from collections import Counter

import tensorflow as tf
from tensorflow import keras
from tensorflow.keras import layers

加载数据：Captcha Images

参考下面的代码，下载并解压演示用的验证码数据集。

该数据集包含1040个作为 png 图像的 captcha 文件。每个样本的标签是一个字符串，文件的名称（减去文件扩展名）。
我们将把字符串中的每个字符映射到一个整数来训练模型。类似地，我们需要将模型的预测映射回字符串。为此目的我们将分别地维护两个字典，分别用于将字符映射到整数，分别用于将整数映射到字符。


# 数据目录的路径
data_dir = Path("./captcha_images_v2/")

# 获取所有图像的列表
images = sorted(list(map(str, list(data_dir.glob("*.png")))))
labels = [img.split(os.path.sep)[-1].split(".png")[0] for img in images]
characters = set(char for label in labels for char in label)  # 建立用于验证码中字符的字符集合
characters = sorted(list(characters))

print("发现的图像数量：", len(images))
print("发现的标签数量：", len(labels))
print("独特字符的数量：", len(characters))
print("存在的字符：", characters)

# 训练和验证使用的批量大小
batch_size = 16

# 所需图像大小
img_width = 200
img_height = 50

# 用于卷积块降采样的因子。
# 我们将使用两个卷积块，每个块都有一个池化层，
# 池化层将特征图降采样 2 倍。
# 因此总的降采样因子为 4。
downsample_factor = 4

# 数据集中任何验证码的最大长度
max_length = max([len(label) for label in labels])

预处理

将图像转换为灰度图像：将 RGB 彩色图像转换为灰度图像，以便更好地处理和降低计算成本。
将灰度图像二值化 (binaryzation): 使用 adaptive_threshold 策略将灰度图像转换为黑白二值图像，使得字符和背景更加明显。
前景框选 (foreground extraction): 在二值图像中找到字符的前景区域，同时去除掉无关的背景。
图像缩放 (image resizing): 将前景区域的图像缩放到预定的大小，以便后续训练和预测过程中输入图像的尺寸保持一致。

# 将字符映射到整数
char_to_num = layers.StringLookup(vocabulary=list(characters), mask_token=None)

# 将整数映射回原始字符
num_to_char = layers.StringLookup(
    vocabulary=char_to_num.get_vocabulary(), mask_token=None, invert=True
)


def split_data(images, labels, train_size=0.9, shuffle=True):
    # 1. 获取数据集的总大小
    size = len(images)
    # 2. 创建索引数组并进行洗牌（如果需要）
    indices = np.arange(size)
    if shuffle:
        np.random.shuffle(indices)
    # 3. 获取训练样本的大小
    train_samples = int(size * train_size)
    # 4. 将数据分成训练集和验证集
    x_train, y_train = images[indices[:train_samples]], labels[indices