学习目标:理解赛题背景和赛题数据,完成赛题报名和数据下载,理解赛题的解题思路
首先贴出Datawhale开源项目链接和天池赛事报名链接:
该项目为Datawhale和天池合作举办的cv入门赛事街景字符识别开源项目,比较适合刚入门深度学习并且想要找项目练手的同学们。
1 赛题背景
谷歌街景,是谷歌地图的一项特色服务,是由专用街景车进行拍摄,然后把360度实景拍摄照片放在谷歌地图里供用户使用。
该赛题即来源于Google街景图片中的门牌号识别问题。
我们知道,在受约束环境下(如文档处理)的字符识别技术,比方说OCR技术已经被研究得很透。但是对照片中的多字符文本识别却是个难题,因为这些照片中的字体、颜色、样式、方向、排列不一,再加上光照、阴影、镜像、遮蔽等环境因素影响,还有图像本身的分辨率、焦点模糊、抖动等问题。而传统的图像文字识别,一般要经过字符定位、分割和识别三个步骤,处理效率不高。考虑Google街景的每天上传的图片量,以往的这些方法显然缺乏实用价值。
为此,Google开发了一套大型的神经网络来处理海量的Google街景图片中的门牌号识别问题。这个神经网络的代号是DistBelief,其学名是深度卷积神经网络。经过DistBelief训练的这个大型分布式神经网络,可以把定位、分割和识别三个步骤集成到一起,直接对每一个像素进行操作。其性能随着神经网络的深度增加而提高,在11层的时候达到最高。根据论文的数据,该系统对SVHN(街景门牌号数据集)中的门牌号识别率达96%,而单数字识别率达97.84%,对于Google街景图库的上千万门牌号的识别率也超过90%。
此处附上论文下载链接:https://pan.baidu.com/s/1Z3g1pps_pP_Ef849vslHWg 提取码:220B
2 赛题数据
赛题来源自Google街景图像中的门牌号数据集SVHN(The Street View House Numbers Dataset,),并根据一定方式采样得到比赛数据集。需要注意的是本赛题需要选手识别图片中所有的字符,为了降低比赛难度,我们提供了训练集、验证集和测试集中字符的位置框(如下图所示)。

数据集
训练集数据包括3W张照片,验证集数据包括1W张照片,每张照片包括颜色图像和对应的编码类别和具体位置;为了保证比赛的公平性,测试集A包括4W张照片,测试集B包括4W张照片。
字段表
所有的数据(训练集、验证集和测试集)的标签(label)使用JSON格式,并使用文件名进行索引。如果一个文件中包括多个字符,则使用列表将字段进行组合。
| Field | Description |
|---|---|
| top | 左上角坐标X |
| height | 字符高度 |
| left | 左上角最表Y |
| width< |
街景字符识别赛题解析

解析基于Google街景图像的门牌号识别赛题,介绍赛题背景、数据集特性、评估指标及解题思路,包括定长与不定长字符识别方法。
最低0.47元/天 解锁文章
644

被折叠的 条评论
为什么被折叠?



