MultiGrain: a unified image embedding for classes and instances
摘要
文中主要介绍一种叫做multiGrain的方法,这种方法可以同时对图片进行分类和检测。数据的标签只依赖于类别标签,训练也是相对简单,最小化交叉熵Loss以及ranking Loss,用来判定两张图片是否可区分的。这个模型是根据普通的分类模型构建的,它的奇异之处在于有一种pooling层,可以在低像素上训练的模型应用到高像素中。
文中的分类、检索结果是要优于目前存在的算法的。
简介
文中的模型可以完成三种任务,这三种任务的完成是基于一个向量编码,
目前来说卷积实现分类,已经是对图像特征提取方向的一个巨大进步,所以形成一个既可以检索又可以分类的编码本身并不存在冲突。
这种任务是与多任务这种任务有冲突很难融合不同的。虽然文中的三个任务不冲突,但是对于不同的实例相似度具有不同的评价标准比如,分类需要更多的变化来展示不变,而复制检测对于图像细节又很敏感。
为了使得模型能够满足不同的情况,模型的结构时使用一种分类网络,在分类网络的后面加上一层global pooling层。 这样可以输入不同大小的图像。
训练模型的时候主要使用,交叉熵loss以及对比损失函数。 训练的时候还使用了数据增强。