Datawhale 零基础入门CV赛事_datawhale 零基础入门cv赛事--优快云博客

本文链接：https://blog.youkuaiyun.com/qq_22441151/article/details/106243184

本文介绍了一个针对零基础学习者的计算机视觉赛事，任务是识别街道字符编码。使用公开数据集SVHN，涉及定长和不定长字符识别，解题思路包括将问题转化为定长分类或应用CRNN等模型进行不定长字符检测。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1.赛题理解

赛题名称：零基础入门cv之街道字符识别
赛题任务：赛题以计算机视觉中字符识别为背景，要求选手预测街道字符编码，这是一个典型的字符识别问题。为了简化赛题难度，赛题数据采用公开数据集SVHN，因此可以选择很多相应的paper作为思路参考。

赛题以街道字符为为赛题数据，数据集报名后可见并可下载，该数据来自收集的SVHN街道字符，并进行了匿名采样处理。
在这里插入图片描述

字符的具体坐标：
在这里插入图片描述在比赛数据（训练集和验证集）中，同一张图片中可能包括一个或者多个字符，因此在比赛数据的JSON标注中，会有两个字符的边框信息：
原始图片 |图片的JSON标注
|

本次赛题的本质是分类问题，需要对图片的字符进行识别。与常规分类问题的区别是，本次图片中字符的数量是不确定的，需要对不定长字符进行识别。

定长字符识别：
可以将赛题抽象为一个定长字符识别问题，在赛题数据集中大部分图像中字符个数为2-4个，最多的字符个数为6个。因此可以对于所有的图像都抽象为6个字符的识别问题，字符23填充为23XXXX，字符231填充为231XXX。经过填充之后，原始的赛题可以简化了6个字符的分类问题。在每个字符的分类中会进行10个类别的分类，假如分类为填充字符，则表明该字符为空。
不定长字符识别:
在字符识别研究中，有特定的方法来解决此种不定长的字符识别问题，比较典型的有CRNN字符识别模型。在本次赛题中给定的图像数据都比较规整，可以视为一个单词或者一个句子。
此种思路需要构建字符检测模型，对测试集中的字符进行识别。选手可以参考物体检测模型SSD或者YOLO来完成。