【得物技术】基于自注意机制的图像识别算法

背景复杂度检测

原创

于 2021-11-19 19:01:30 发布 · 2.1k 阅读

·

1

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#react.js #前端 #golang

本文介绍了一个背景复杂度检测项目的全过程，包括模型设计思路、优化方案及最终实现。通过使用Mobilenet backbone+FPN+modifiedSAM等技术手段，解决了用户上传球鞋图片背景复杂度检测的问题。

背景

对于做 CV 同学的人来说，图像识别是入门中最简单的模型，也是最最基础的模型。在不同的 CV 任务重，即使发展多年，都一直保留着利用训练好的图像识别任务重的模型权重，作为 backbone 用于加速训练收敛的作用。但是面对一些图像识别的任务，我们如何根据业务需求去改造一个已经比较完备的识别任务，还是蛮有意思的一个话题。

业务需求

能够筛选出用户上传的球鞋图片中带有干净统一背景的图片，我们暂且就叫这个项目为 背景复杂度检测 任务。帮助后续估价以及出售环节算法降低难度，以及维持整个 app 图像质量在一个水平线上。

项目要求

能够在测试集的准确率达到 80% 以上，可以用于给予用户提示，但是并不强制；而达到 90% 以上，可以强制用户按照要求达到上传图片质量的要求。
能够实现端侧应用。

模型设计

mobilenet backbone + FPN + modified SAM

最终做出来的模型各个模块分解来看其实很简单，没有什么特别难懂的地方。

整体需要努力的方向无外乎以下几点：

分析业务特点，这是一个典型的空间型识别任务，即是通过图像的某部分或者某几部分区域的内容完成目的。对于 背景复杂度 我们要刨去主体之外的部分，判断剩余部分是否是“复杂的”，即可，所以想到可以用空间系列的注意力机制。
我们不可能对于用户严格控制拍照中的主体占据图片中比例的大小。有些用户习惯将主体占满屏，有些用户喜欢留白多一些。对于不同的尺度，如果想做到精细分类，是需要在较高分辨率下的 feature map 做文章，所以这里用 FPN。

为了能够在端侧实现应用，选用 mobilenet 系列是很天然的想法。

以上几点的设计思路其实就是完全围绕当前 业务场景 而去做出的设计。

最终在测试集上，利用设计好的 CNN 模型达到了 96% 的正确率。可以作为强制用户上传高品质图片质量的依据。

如果想了解（白嫖）这个项目所用模型，其实分享到这就可

最低0.47元/天解锁文章

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。