来源:CVPR-2018,台湾国立&CMU,paper
概述
- 问题描述:针对每一个输入预测多个见过的和没见过的标签
- motivation:人类利用兴趣物体之间的语义信息的方式。提出了一个结合知识图谱的框架来描述多标签之间的关系。
- 模型中学习了一种在语义标签空间的信息传播方式,以此来建模见过的和没见过的label之间的相互依赖。
Introduction
- 自然图片的标注工作要求神经网络应该具有多标签的识别能力,这不仅需要将image与多标签关联起来,同时也需要发掘标签之间的关系,因为兴趣标签(labels of interest)是经常共同出现的。
- 目前对于多标签标注的工作:
- 二元相关性的分类建模:缺乏建模label共同出现的能力
- 通过假设标签先验来衡量label之间的关联的方法
- 基于label-embedding将images和labels映射到潜在的空间中去发现label之间的关联
- BPPMLL首次提出使用loss函数建模label之间的依赖关系
- 多标签与zero-shot(ML-ZSL)
- 关键点在于预测出训练过程中并未定义的标签
- 二元相关性或者增加先验的方法是不适用的,因为他们无法产生出新的模型;但label-embedding的方法是可以使用的,只需要给出没见过的label的representation
- 目前提出的方法中很少关注到结构化知识和推理带来的优势
- 人类识别物体并不只是通过他们的外形,还会使用他们通过经验学到的关于世界的知识。基于这样的思考,使用知识图谱建模共同出现的和未共同出现的概念,可将利用外部的结构化的知识图谱,并且将知识扩展到没见过的类别。
- 目前工作没有将结构化的知识推理应用到ML-ZSL领域
- 本文方法:
- 通过语义向量表示label
- 通过在label空间中观察label之间的关系学习一种传播机制,来修改初始化后的不同class label之间关系的表达
- 通过传播机制完成推理过程
- 使用了来自WordNet的结构化知识图谱
Related Work
文章首先分析了多标签的分类任务,同Introduction。然后介绍了建模label之间相互依赖关系的方法——通过利用label之间语义关系。
- Hierarchy and Exclusion(HEX) graph:考虑了label语义中的相互排斥、交叉和包含的关系。之后模型被拓展到加入soft或者不确定的关系。
- Structured Inference Neural Network(SINN):收到RNN的启发,正向关系和负向关系通过在概念层的双向信息传播得到。
- Graph Gated Neural Networks (GGNN):使用周期门控单元Gated Recurrent Units(GRU) 完成图上的信息传播,直到Graph Search Neural Network (GSNN) 才完成了多标签分类任务中以结构化知识的形式对语义关系的发掘*(注意这里没有适应zero-shot场景)*
以上方法都没有对zero-shot场景的应用,接下来作者描述了zero-shot中对于多标签分类的一些方法: - COSTA:假设了共同出现的统计结果,同时通过对见过的class的结果的加权组合来评价针对见过的标签的分类器效果。
- 将所有可能的标签列出然后转化为一份zero-shot分类问题。
- 考虑embedding的方法得到label对应的图像语义信息,针对subregions和它对应的标签形成一个空间映射。
- 考虑使用图模型,针对同时出现和不同时出现的matrix进行建模分析
Approach
使用 D = { ( x i , y i ) } i = 1 N \mathcal{D}=\{(\mathbf{x}^i,\mathbf{y}^i)\}_{i=1}^{N} D={ (xi,yi)}i=1N 表示训练的实例集合, x i ∈ R d f e a t \mathbf{x}^i\in\mathbb{R}^{d_feat} xi∈Rdfeat 是 d f e a t d_{feat} dfeat 维的特征向量, y i ∈ { 0 , 1 } ∣ S ∣ \mathbf{y}^i\in\{0,1\}^{|S|} yi∈{ 0,1}∣S∣ 是相应的标签集合 S S S 中的标签。 N N N 是训练实例的个数, ∣ S ∣ |S| ∣S∣ 是见过的标签的数量。给定 D D D 和 S S S,多标签的分类任务可以定义为:学习一个模型,能够准确预测测试实例 x ^ i ∈ R d f e a t \hat{\mathbf{x}}^i\in\mathbb{R}^{d_feat} x^i∈Rdfeat 的标签 y ^ i ∈ { 0 , 1 } ∣ S ∣ \hat{\mathbf{y}}^i\in\{0,1\}^{|S|} y^i∈{ 0,1}∣S∣。
对于ML-ZSL问题,有没见过的标签集合 U \mathcal{U} U ,目标就是对于 S \mathcal{S} S 和 U \mathcal{U} U 中的所有测试实例 x ^ \hat{\mathbf{x}} x^ 能够准确地预测其标签。这样的标签集合是 y ~ i ∈ { 0 , 1 } ∣ S ∣ + ∣ U ∣ \tilde{\mathbf{y}}^i\in\{0,1\}^{|\mathcal{S}|+|\mathcal{U}|} y