又是好久没更新博客,许是我变的懒惰了,不过近期会趁闲暇多更新一些,下个月就不会这么幸运有那么多时间了。
问题定义
衣饰搜索这块,万能的淘宝一定会做出来,因为有市场,但就是不知道为何被UNC的这个团队领先发表在ICCV上,可能这就是学术界和工业界的区别,学术界辛辛苦苦爬下来数据然后做出成果发表在论文上,但工业界闷声发大财,自带数据buff做出更加实用的效果却不想发表。我觉得这是其中的原因之一。
原因之二在于,工业界里的评测标准一般比较乱,就是如何定义出来一张图片是街拍图片,而又如何评测呢?我猜测可能会找一些人标注出来一个数据集,然后自己做结果自己玩。所以在科学性上,也不如学术界的正统。但这又有什么关系呢,挣钱的可是工业界。
所以此文章的亮点就是它终于把衣饰搜索这个命题提交给学术界,并收集了数据,做出了基本的效果。
说了那么多,问题定义如下,就是街拍图片到商店图片的品牌精准搜索。
雨石君脑补了应用场景:某人逛街玩耍,见一对情侣飘然而过,容颜靓丽,鲜衣怒马,包包也似是极好的上品,于是欲求此品牌而不好意思问,刚要叹息一声就此作罢,猛醒得有淘宝神器,于是潜伏树后,偷拍一图,搜之得品牌名,于是产生出图像搜索,得之可得天下的气概……(待续)
所以,精准的品牌搜索是有意义的。
难点
- 街拍图像的质量问题。线上商店中的照片大都是由专业人士在特定场景下拍出来的,效果一般较好。
- 街拍图像则是由不专业人士在任意场景下拍出来的。质量较差。
方法
基础
我一直觉得,要想分析一个机器学习领域的问题,需要明确数据格式,算法流程和评测指标三点。
- 数据格式
街拍图像以及其对应的同品牌商店图像的pair对 - 算法流程
- 评测指标
既然是评判pair图像是否匹配,那么就是二分类问题了。
算法组合
论文中评判了多种方法的组合,为何说是组合呢?是因为可选的方法在抽取特征和相似度计算两个方面。
- 抽取特征
- 在全局图片上抽取特征
- 在某些特定区域上抽取特征
- 相似度计算
- 使用余弦距离
- 使用自适应距离
其中,特定区域上抽取特征是指,首先对图片中的衣装位置进行标定,标定出来可能会有很多区域,读者可能会问为什么说很多区域而不是只有两三件衣服呢?物体探测中都会遇到,一个物体可能用不同大小的框去标定都可以把它圈出来,而这个框偏移几个像素后可能还能把它圈出来。
其实不怎么思考也能想得到,特定区域上抽取特征会比全局特征要好,自适应距离要比余弦距离要好。特定区域由于有很多,所以导致运算性能变得很低,所以论文中还采用了使用余弦距离先过滤,然后再使用自适应距离重新计算的方法。
自适应距离与类别独立
其实很简单,就是一个pair对图像抽出来的特征拼到一起,然后学习出来一个NN两类分类器,分类器的最高层使用逻辑斯蒂回归模型。
而所谓的类别独立就是指先把所有图像都放到一起训练得到初步参数,然后对于每个类别,再用该类别的图像对参数进行细粒度的调整。
效果
各个类别的效果如下,感觉空间还有很大,若有调参狗,不妨一试。
提升的一些想法
- 抽取特征的模型是用的已经训练好的AlexNet,可以使用衣装数据对参数进行重新微调
- 自适应的距离度量方式中,归一化、对pair对进行筛选,使用hard sample去训练网络。
参考文献
[1]. Hadi Kiapour M, Han X, Lazebnik S, et al. Where to Buy It: Matching Street Clothing Photos in Online Shops[C]//Proceedings of the IEEE International Conference on Computer Vision. 2015: 3343-3351.