基于飞桨PaddlePaddle的地标检索识别夺竞赛双料大奖,获奖方案全解析

本文介绍了基于飞桨PaddlePaddle的地标检索与识别解决方案,该方案在Google Landmarks竞赛中获奖。通过使用ResNet等预训练模型,结合arcmargin loss和Npairs Loss优化特征表达,实现检索和识别任务的高效性能。同时,文章分享了多模型融合、目标检测过滤非地标图像等策略,提升了地标识别的准确性。所有方案已在GitHub开源。
近日,百度视觉团队基于飞桨(PaddlePaddle)深度学习平台,自主研发的地标检索/识别解决方案,在 Google Landmark Retrieval 2019[1] 和 Google Landmark Recognition 2019[2] 两个任务中都斩获第二名,并受邀在计算机视觉领域的顶级学术会议 CVPR 2019 上进行技术分享。

Google 今年更新了目前最大的人造和自然地标识别数据集,发布了 Google-Landmarks-v2,数据集中包含超过 400 万张图片,描述了 20 万处类别地标。训练数据没有经过精细人工标注,类别数目严重不均衡,同一个地标的图像受到拍摄角度、遮挡、天气以及光线等影响很大,同时含有大量非地标数据,符合实际情况,非常具有挑战性。基于此数据集,今年总共吸引全球超过 300 支队伍参与了 Google 主办的地标检索识别竞赛。

 

640?wx_fmt=png

图 1 一些地标示例图像以及 top5 的检索结果

 

地标检索任务关注给定一张图像,需要找到给定数据库中所有相同的地标图像。评估数据超过 10 万张待查询图像(test 集合),以及将近 80 万的检索数据库 (index 集合)。

 

地标识别任务关注给定一张图像,标注该图像是不是地标,如果是地标,需要标注其在 20 万种地标的类别。

 

评估数据与地标检索任务的待查询图像相同,据比赛完推算,其中有地标的图像不到 2000 张。当前,百度视觉团队的获奖方案已经提交到 arxiv 上,并且在 Github 上开源代码。下面将为大家详细解读。

 

论文地址:https://arxiv.org/pdf/1906.03990.pdf

 

开源项目地址:https://github.com/PaddlePaddle/models/tree/develop/PaddleCV/Research/landmark

 

地标检索解决方案

 

在地标检索比赛中,我们使用 ImageNet 预训练的模型参数作初始化,然后在 GLD v2(Google LandMark Dataset V2)上进行训练。网络结构上,我们使用了 ResNet 152 [4], ResNet200 [4], SE_ResNeXt152 [5] 和 Inception V4[6] 作为骨干网络。其中 ResNet 系列都是基于论文 [3],使用了 ResNet_VD 的改进版本,这 4 个模型在 ImageNet 上的 1000 分类任务上 top1 的准确率分别为 80.59%,80.93%,81.40% 和 80.77%。这些模型及训练方法都已经在飞桨的 Github 图像分类项目中开源 [7]。

 

640?wx_fmt=png

图 2 地标检索任务解决方案流程图

 

在训练检索特征过

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值