街景字符编码识别项目学习笔记(一)

街景字符识别赛题解析
解析基于Google街景图像的门牌号识别赛题,介绍赛题背景、数据集特性、评估指标及解题思路,包括定长与不定长字符识别方法。

学习目标:理解赛题背景和赛题数据,完成赛题报名和数据下载,理解赛题的解题思路

首先贴出Datawhale开源项目链接和天池赛事报名链接:

Datawhale开源项目链接

天池赛事报名链接

该项目为Datawhale和天池合作举办的cv入门赛事街景字符识别开源项目,比较适合刚入门深度学习并且想要找项目练手的同学们。

1 赛题背景

谷歌街景,是谷歌地图的一项特色服务,是由专用街景车进行拍摄,然后把360度实景拍摄照片放在谷歌地图里供用户使用。

该赛题即来源于Google街景图片中的门牌号识别问题。

我们知道,在受约束环境下(如文档处理)的字符识别技术,比方说OCR技术已经被研究得很透。但是对照片中的多字符文本识别却是个难题,因为这些照片中的字体、颜色、样式、方向、排列不一,再加上光照、阴影、镜像、遮蔽等环境因素影响,还有图像本身的分辨率、焦点模糊、抖动等问题。而传统的图像文字识别,一般要经过字符定位、分割和识别三个步骤,处理效率不高。考虑Google街景的每天上传的图片量,以往的这些方法显然缺乏实用价值。

为此,Google开发了一套大型的神经网络来处理海量的Google街景图片中的门牌号识别问题。这个神经网络的代号是DistBelief,其学名是深度卷积神经网络。经过DistBelief训练的这个大型分布式神经网络,可以把定位、分割和识别三个步骤集成到一起,直接对每一个像素进行操作。其性能随着神经网络的深度增加而提高,在11层的时候达到最高。根据论文的数据,该系统对SVHN(街景门牌号数据集)中的门牌号识别率达96%,而单数字识别率达97.84%,对于Google街景图库的上千万门牌号的识别率也超过90%。

此处附上论文下载链接:https://pan.baidu.com/s/1Z3g1pps_pP_Ef849vslHWg 提取码:220B

2 赛题数据

赛题来源自Google街景图像中的门牌号数据集SVHN(The Street View House Numbers Dataset,),并根据一定方式采样得到比赛数据集。需要注意的是本赛题需要选手识别图片中所有的字符,为了降低比赛难度,我们提供了训练集、验证集和测试集中字符的位置框(如下图所示)。
在这里插入图片描述

数据集

训练集数据包括3W张照片,验证集数据包括1W张照片,每张照片包括颜色图像和对应的编码类别和具体位置;为了保证比赛的公平性,测试集A包括4W张照片,测试集B包括4W张照片。

字段表

所有的数据(训练集、验证集和测试集)的标签(label)使用JSON格式,并使用文件名进行索引。如果一个文件中包括多个字符,则使用列表将字段进行组合。

Field Description
top 左上角坐标X
height 字符高度
left 左上角最表Y
width<
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值