背景
对于做 CV 同学的人来说,图像识别是入门中最简单的模型,也是最最基础的模型。在不同的 CV 任务重,即使发展多年,都一直保留着利用训练好的图像识别任务重的模型权重,作为 backbone 用于加速训练收敛的作用。但是面对一些图像识别的任务,我们如何根据业务需求去改造一个已经比较完备的识别任务,还是蛮有意思的一个话题。
业务需求
能够筛选出用户上传的球鞋图片中带有干净统一背景的图片,我们暂且就叫这个项目为 背景复杂度检测 任务。帮助后续估价以及出售环节算法降低难度,以及维持整个 app 图像质量在一个水平线上。

项目要求
- 能够在测试集的准确率达到 80% 以上,可以用于给予用户提示,但是并不强制;而达到 90% 以上,可以强制用户按照要求达到上传图片质量的要求。
- 能够实现端侧应用。
模型设计
mobilenet backbone + FPN + modified SAM

最终做出来的模型各个模块分解来看其实很简单,没有什么特别难懂的地方。
整体需要努力的方向无外乎以下几点:
- 分析业务特点,这是一个典型的空间型识别任务,即是通过图像的某部分或者某几部分区域的内容完成目的。对于 背景复杂度 我们要刨去主体之外的部分,判断剩余部分是否是“复杂的”,即可,所以想到可以用空间系列的注意力机制。
- 我们不可能对于用户严格控制拍照中的主体占据图片中比例的大小。有些用户习惯将主体占满屏,有些用户喜欢留白多一些。对于不同的尺度,如果想做到精细分类,是需要在较高分辨率下的 feature map 做文章,所以这里用 FPN。
- 为了能够在端侧实现应用,选用 mobilenet 系列是很天然的想法。
以上几点的设计思路其实就是完全围绕当前 业务场景 而去做出的设计。
最终在测试集上,利用设计好的 CNN 模型达到了 96% 的正确率。可以作为强制用户上传高品质图片质量的依据。
如果想了解(白嫖)这个项目所用模型,其实分享到这就可
背景复杂度检测

本文介绍了一个背景复杂度检测项目的全过程,包括模型设计思路、优化方案及最终实现。通过使用Mobilenet backbone+FPN+modifiedSAM等技术手段,解决了用户上传球鞋图片背景复杂度检测的问题。
最低0.47元/天 解锁文章
610

被折叠的 条评论
为什么被折叠?



