【得物技术】基于自注意机制的图像识别算法

背景复杂度检测
本文介绍了一个背景复杂度检测项目的全过程,包括模型设计思路、优化方案及最终实现。通过使用Mobilenet backbone+FPN+modifiedSAM等技术手段,解决了用户上传球鞋图片背景复杂度检测的问题。

背景

对于做 CV 同学的人来说,图像识别是入门中最简单的模型,也是最最基础的模型。在不同的 CV 任务重,即使发展多年,都一直保留着利用训练好的图像识别任务重的模型权重,作为 backbone 用于加速训练收敛的作用。但是面对一些图像识别的任务,我们如何根据业务需求去改造一个已经比较完备的识别任务,还是蛮有意思的一个话题。

业务需求

能够筛选出用户上传的球鞋图片中带有干净统一背景的图片,我们暂且就叫这个项目为 背景复杂度检测 任务。帮助后续估价以及出售环节算法降低难度,以及维持整个 app 图像质量在一个水平线上。

项目要求

  1. 能够在测试集的准确率达到 80% 以上,可以用于给予用户提示,但是并不强制;而达到 90% 以上,可以强制用户按照要求达到上传图片质量的要求。
  2. 能够实现端侧应用。

模型设计

mobilenet backbone + FPN + modified SAM

最终做出来的模型各个模块分解来看其实很简单,没有什么特别难懂的地方。

整体需要努力的方向无外乎以下几点:

  1. 分析业务特点,这是一个典型的空间型识别任务,即是通过图像的某部分或者某几部分区域的内容完成目的。对于 背景复杂度 我们要刨去主体之外的部分,判断剩余部分是否是“复杂的”,即可,所以想到可以用空间系列的注意力机制。
  2. 我们不可能对于用户严格控制拍照中的主体占据图片中比例的大小。有些用户习惯将主体占满屏,有些用户喜欢留白多一些。对于不同的尺度,如果想做到精细分类,是需要在较高分辨率下的 feature map 做文章,所以这里用 FPN。
  1. 为了能够在端侧实现应用,选用 mobilenet 系列是很天然的想法。

以上几点的设计思路其实就是完全围绕当前 业务场景 而去做出的设计。

最终在测试集上,利用设计好的 CNN 模型达到了 96% 的正确率。可以作为强制用户上传高品质图片质量的依据。

如果想了解(白嫖)这个项目所用模型,其实分享到这就可

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值