
目标检测
wgj839977837
这个作者很懒,什么都没留下…
展开
-
字符识别模型
字符识别模型backbone选取检测头选取损失函数构建模型实现backbone选取初步选定resnet18作为encoder一共进行三次降采样进行特征提取,并构建可变形卷积的decoder进行三次上采样到原始图像大小检测头选取检测头包括33卷积,RELU和11卷积,在上采样的特征图上进行密集像素每个位置像素是中心点的置信度。损失函数构建损失函数采用cornernet中改进的FocalLoss,在每个真值中心点位置通过高斯平滑生成真值中心点热图,模型实现模型采用Pytorch框架实现,并利用i原创 2020-05-26 23:46:41 · 235 阅读 · 0 评论 -
数据读取与数据扩增
数据读取与数据扩增模型选取数据读取和扩增模型选取由于每个图片的字符个数不定,所以将字符识别建模为目标检测,采用目标检测模型进行字符的识别。模型backbone采用encoder-decoder架构的resnet18,在encoder部分采用resnet常规的降采样步长为8,在decoder部分采用可变性卷积和转置卷积上采样到步长为2。检测头采用centernet结构,但是只进行中心点分类,不对box进行回归。推理阶段直接采用maxpooling代理nms进行后处理得到所有字符预测结果。数据读取和扩原创 2020-05-23 23:20:57 · 158 阅读 · 0 评论 -
街景字符编码识别赛题理解
街景字符编码识别赛题理解赛题数据问题赛题数据赛题的数据为街景字符图片,类似于MNIST数据集,但是更加困难,每张图片分辨率都很低,图片中的字符有大有小,存在尺度不一致的问题;按照赛题的要求只要识别是每张图片包含几个字符,每个字符是什么就可以了,这样可以简单将其定义为一个图像分类问题,但是每个图片的字符个数不确定,而且位置不确定,因为每个字符的类别仅仅与相应的局部的特征有关,仅仅通过对全局的特征进行分类并不能得到很好的效果;其次赛题数据不仅提供了字符类别也提供了每个字符的位置信息,所以也可以将改题定义为原创 2020-05-20 20:01:36 · 228 阅读 · 0 评论