论文笔记：Multi-Label Zero-Shot Learning with Structured Knowledge Graphs

知识图谱增强的多标签分类

最新推荐文章于 2024-09-14 10:41:43 发布

原创

最新推荐文章于 2024-09-14 10:41:43 发布 · 3k 阅读

21 ·

CC 4.0 BY-SA版权

文章标签：

#图卷积 #知识图谱 #zero-shot #多标签分类

来源：CVPR-2018，台湾国立&CMU，paper

概述

问题描述：针对每一个输入预测多个见过的和没见过的标签
motivation：人类利用兴趣物体之间的语义信息的方式。提出了一个结合知识图谱的框架来描述多标签之间的关系。
模型中学习了一种在语义标签空间的信息传播方式，以此来建模见过的和没见过的label之间的相互依赖。

Introduction

自然图片的标注工作要求神经网络应该具有多标签的识别能力，这不仅需要将image与多标签关联起来，同时也需要发掘标签之间的关系，因为兴趣标签（labels of interest）是经常共同出现的。
目前对于多标签标注的工作：
- 二元相关性的分类建模：缺乏建模label共同出现的能力
- 通过假设标签先验来衡量label之间的关联的方法
- 基于label-embedding将images和labels映射到潜在的空间中去发现label之间的关联
- BPPMLL首次提出使用loss函数建模label之间的依赖关系
多标签与zero-shot(ML-ZSL)
- 关键点在于预测出训练过程中并未定义的标签
- 二元相关性或者增加先验的方法是不适用的，因为他们无法产生出新的模型；但label-embedding的方法是可以使用的，只需要给出没见过的label的representation
- 目前提出的方法中很少关注到结构化知识和推理带来的优势
- 人类识别物体并不只是通过他们的外形，还会使用他们通过经验学到的关于世界的知识。基于这样的思考，使用知识图谱建模共同出现的和未共同出现的概念，可将利用外部的结构化的知识图谱，并且将知识扩展到没见过的类别。
目前工作没有将结构化的知识推理应用到ML-ZSL领域
本文方法：
- 通过语义向量表示label
- 通过在label空间中观察label之间的关系学习一种传播机制，来修改初始化后的不同class label之间关系的表达
- 通过传播机制完成推理过程
- 使用了来自WordNet的结构化知识图谱

Related Work

文章首先分析了多标签的分类任务，同Introduction。然后介绍了建模label之间相互依赖关系的方法——通过利用label之间语义关系。

Hierarchy and Exclusion(HEX) graph：考虑了label语义中的相互排斥、交叉和包含的关系。之后模型被拓展到加入soft或者不确定的关系。
Structured Inference Neural Network(SINN)：收到RNN的启发，正向关系和负向关系通过在概念层的双向信息传播得到。
Graph Gated Neural Networks (GGNN)：使用周期门控单元Gated Recurrent Units(GRU) 完成图上的信息传播，直到Graph Search Neural Network (GSNN) 才完成了多标签分类任务中以结构化知识的形式对语义关系的发掘*（注意这里没有适应zero-shot场景）*
以上方法都没有对zero-shot场景的应用，接下来作者描述了zero-shot中对于多标签分类的一些方法：
COSTA：假设了共同出现的统计结果，同时通过对见过的class的结果的加权组合来评价针对见过的标签的分类器效果。
将所有可能的标签列出然后转化为一份zero-shot分类问题。
考虑embedding的方法得到label对应的图像语义信息，针对subregions和它对应的标签形成一个空间映射。
考虑使用图模型，针对同时出现和不同时出现的matrix进行建模分析

Approach

使用 $\mathcal{D}=\{(\mathbf{x}^i,\mathbf{y}^i)\}_{i=1}^{N}$ 表示训练的实例集合， $\mathbf{x}^i\in\mathbb{R}^{d_feat}$ 是 $d_{feat}$ 维的特征向量， $\mathbf{y}^i\in\{0,1\}^{|S|}$ 是相应的标签集合 $S$ 中的标签。 $N$ 是训练实例的个数， $∣ S ∣$ 是见过的标签的数量。给定 $D$ 和 $S$ ，多标签的分类任务可以定义为：学习一个模型，能够准确预测测试实例 $\hat{\mathbf{x}}^i\in\mathbb{R}^{d_feat}$ 的标签 $\hat{\mathbf{y}}^i\in\{0,1\}^{|S|}$ 。

对于ML-ZSL问题，有没见过的标签集合 $\mathcal{U}$ ，目标就是对于 $\mathcal{S}$ 和 $\mathcal{U}$ 中的所有测试实例 $\hat{\mathbf{x}}$ 能够准确地预测其标签。这样的标签集合是 $\tilde{\mathbf{y}}^i\in\{0,1\}^{|\mathcal{S}|+|\mathcal{U}|}$