Modeling Inter and Intra-Class Relations in the Triplet Loss for Zero-Shot Learning
一,概述
当前绝大部分使用the triplet loss的工作都做了一些隐含的假设,而这些假设限制了他们在实际用例中的性能,特别是当数据集比较细粒度,包含大量类的情况下。而本文确定了其中的三个假设,并提出了相应的方法来解决它们。通过借助类间关系和类内关系,使得模型对相似的类之间的混淆更加宽容,以及惩罚不能很好反应类原型的视觉样本。该方法在四个数据集上进行了测试,包括大型的ImageNet,其性能显著高于最近的方法,甚至基于更严格假设的生成方法。
二,三个有误的隐性假设
Assumption that classes are equally different
现在许多数据集中包含非常相似的类的组合,特别是包含许多类的细粒度数据集。根据人的主观推测,在构建基于相似性的分类模型时,两个几乎无法区分的类之间的混淆不应该受到和两个非常不同的类之间的混淆同等程度的惩罚。为此,作者提出了flexible semantic margin,它考虑了类原型的一阶和二阶统计量,从而在三元组损失中引入一个反映类之间实际差异的margin。
Assumption of meaningful margin
在许多triplet loss方法中,这些模型通过设置固定值的margin来分辨可见类(对于一个可视化的样本来说,它至少应该比其他的原型与它的类原型更兼容一些,这个margin应该作为一个正则化器,减少训练集上的过拟合)。然而,视觉样本和原型之间的相似性通常是用点积来计算的,这就导致最后得出的相似性结果是无界的,可以通过增加投影视觉样本的范数来任意增大。因此,margin所施加的限制减少到可以忽略不计的程度。虽然在某些情况下这可能是可取的,但是通过任意减少正则化,它也可能会对结果模型的整体性能产生负面影响。因此作者引入了partial normalization,它权衡了直接使用提取出的特征(这为模型提

最低0.47元/天 解锁文章
1071

被折叠的 条评论
为什么被折叠?



