Multi-Label Zero-Shot Learning with Structured Knowledge Graphs 论文笔记

最新推荐文章于 2024-10-09 21:52:24 发布

原创最新推荐文章于 2024-10-09 21:52:24 发布 · 912 阅读

6 ·

CC 4.0 BY-SA版权

文章标签：

#零次学习 #多标签分类

ZSL 专栏收录该内容

2 篇文章

订阅专栏

这是一篇关于多标签零次学习（ML-ZSL）论文的笔记。该任务对输入预测多个unseen类标签，引入知识图谱描述标签关系，模型学习信息传播机制建模标签依赖。文中介绍了方法、实验，包括构建知识图谱、使用数据集及设置，还进行了多标签分类任务和传播机制分析。

Multi-Label Zero-Shot Learning with Structured Knowledge Graphs 论文笔记

个人学习笔记，写得可能比较意识流，各位斟酌食用，理解有误的恳请指正

0. Abstract

这是一个多标签零次学习任务（ML-ZSL），对一个输入预测多个unseen类标签。

引入知识图谱来描述多个标签之间的关系。

模型学习一个信息传播机制来建模seen和unseen的类标签之间的相互依赖关系。

1. Introduction

多标签分类的常见做法：

转换成多个不相交的二分类问题，但这样做没有建模到标签之间的联系。
引入标签之间的先验知识。
基于标签嵌入的方法，将输入图片与它们的标签注入一个隐空间，从而利用标签间的关联关系。

然而，第1、2种方法都没办法直接用到ML-ZSL上去，因为它们没办法泛化到unseen类标签上。

反倒是第三种方法通过利用语义空间的标签表达，可以比较容易的适配ML-ZSL。

虽然已经有ML-ZSL的方法提出了，但是这些方法都没有用到结构化的知识。

Fig.1 阐述了知识图谱如何帮助多标签的建模。

1559033328470

有一些工作在多标签任务上使用结构化的知识，通常做法为：

引入图表达，强迫标签之间有确定的关系
利用RNN来建模不同的标签之间的pos / neg 关系
通过在知识图谱中传播信息，建模标签之间的关系

本文引入结构化的知识图谱和标签传播机制

3. Approach

3.1. Notations and Overview

$D={(xi,yi)}i=1N\mathcal{D}=\left\{\left(\mathbf{x}^{i}, \mathbf{y}^{i}\right)\right\}_{i=1}^{N}$ ：训练集

$N$ ：训练样本数

$S\mathcal{S}$ ：训练标签集

$U\mathcal{U}$ ：不可见标签集

训练时， $yi∈{0,1}∣S∣\mathbf{y}^{i} \in\{0,1\}^{|S|}$ ；测试时， $y~∈{0,1}∣S∣+∣U∣\tilde{\mathbf{y}} \in\{0,1\}^{|\mathcal{S}|+|\mathcal{U}|}$

类的语义向量：用 distributed word embedding 表示， $W={wv}v=1∣S∣+∣U∣\mathbf{W}=\left\{\mathbf{w}_{v}\right\}_{v=1}^{|\mathcal{S}|+|\mathcal{U}|}$ ， $wv∈Rdemb\mathbf{w}_{v} \in \mathbb{R}^{d_{e m b}}$ ， $d_{e m b}$ 是word embedding的维度。在本文总使用GloVe作为word embedding，并且 $d_{e m b}=300$ .

! 1559038229466

每个标签为一个节点， $hv(t)\mathbf{h}_{v}^{(t)}$ ，初始化状态为 $hv(0)\mathbf{h}_{v}^{(0)}$ （直接从输入 $FI\mathbf{F}_I$ 获得的）
节点 $u$ 和节点 $v$ 之间连接的权重为 $avu\mathbf{a}_{vu}$ ，由关联函数 $FRk\mathbf{F}_{R}^{k}$ 产生，k表示关系的类型
经过 $T$ 步传播之后，传入输出函数 $FO\mathbf{F}_{O}$ 生成最后的分类概率

3.2 Structured Knowledge Graph Propagation in Neural Networks

输入函数 $FI(x,wv)\mathbf{F}_{I}\left(\mathbf{x}, \mathbf{w}_{v}\right)$ ，其中 $x\mathbf{x}$ 是输入的图片特征， $wv\mathbf{w}_v$ 是每个节点 $v$ 的Word Embedding，从而得到一个初始的状态置信度 $hv(0)\mathbf{h}_v^{(0)}$ 。这里的 $FI\mathbf{F}_I$ 用神经网络来实现。
知识图谱的传播权重矩阵 $A∈R∣S∣dhid×∣S∣dhid\mathbf{A} \in \mathbb{R}^{|\mathcal{S}| d_{h i d} \times|\mathcal{S}| d_{h i d}}$ ，通过邻接节点来获得每个节点的更新向量 $uv(t)\mathbf{u}_{v}^{(t)}$ ，然后通过门限机制GRU来更新。

上面两步用数学语言来表示：
$\begin{aligned} \mathbf{h}_{v}^{(0)} &=\mathbf{F}_{I}\left(\mathbf{x}, \mathbf{w}_{v}\right)\\ \mathbf{u}_{v}^{(t)} &=\tanh \left(\mathbf{A}_{v}^{\top}\left[\mathbf{h}_{1}^{(t-1) \top} \ldots \mathbf{h}_{|S|}^{(t-1) \top}\right]^{\top}\right) \\ \mathbf{h}_{v}^{(t)} &=G R U C e l l\left(\mathbf{u}_{v}^{(t)}, \mathbf{h}_{v}^{(t-1)}\right) \end{aligned}$
GRUCell的更新过程为：
$\begin{aligned} \mathbf{z}_{v}^{(t)} &=\sigma\left(\mathbf{W}^{z} \mathbf{u}_{v}^{(t)}+\mathbf{U}^{z} \mathbf{h}_{v}^{(t-1)}+\mathbf{b}^{z}\right) \\ \mathbf{r}_{v}^{(t)} &=\sigma\left(\mathbf{W}^{r} \mathbf{u}_{v}^{(t)}+\mathbf{U}^{r} \mathbf{h}_{v}^{(t-1)}+\mathbf{b}^{r}\right) \\ \tilde{\mathbf{h}}_{v}^{(t)} &=\tanh \left(\mathbf{W}^{h} \mathbf{u}_{v}^{(t)}+\mathbf{U}^{h}\left(\mathbf{r}_{v}^{(t-1)} \odot \mathbf{h}_{v}^{(t-1)}\right)+\mathbf{b}^{h}\right) \\ \mathbf{h}_{v}^{(t)} &=\left(1-\mathbf{z}_{v}^{(t)}\right) \odot \mathbf{h}_{v}^{(t-1)}+\mathbf{z}_{v}^{(t)} \odot \tilde{\mathbf{h}}_{v}^{(t)} \end{aligned}$
其中 $W,U,b\mathbf{W}, \mathbf{U}, \mathbf{b}$ 都是可学习的。

输出函数 $FO\mathbf{F}_{O}$ , 用全连接神经网络实现，对于每个标签节点都可以获得一个置信度 $p$ ：

$p_{v}^{(t)}=\mathbf{F}_{O}\left(\mathbf{h}_{v}^{(t)}\right)$

3.3 传播矩阵A的学习

本节阐述如何合理地将邻接节点的信息结合起来，构建A矩阵。

在A中，邻接节点的权重设为非零，不相邻的节点权重设为0。

不是为相同类型/关系的边分配相同的传播权重，而是分配产生传播权重的相同关系函数 $FRk\mathbf{F}_R^k$ ，其中k表示边类型，即相同类型的边有相同类型的关联函数：
$\mathbf{a}_{v u}=\mathbf{F}_{R}^{k}\left(\mathbf{w}_{v}, \mathbf{w}_{u}\right)$
传播机制如下图：

1559113544995

这样，这个F函数学习了一个从语义Word Embedding空间到传播矩阵的一个映射，从而有依据地建模关联边之间依赖关系。

用在ZSL中，可以从语义空间学习可以让模型生成unseen类的类标签。

3.4 从ML到ML-ZSL

loss：binary cross-entropy（BCE）
$\mathcal{L}=\frac{1}{N} \frac{1}{|\mathcal{S}|} \sum_{i, v, t} \alpha(t)\left(\left(y_{v}^{i} \log p_{v}^{(t)}+\left(1-y_{v}^{i}\right) \log \left(1-p_{v}^{(t)}\right)\right)\right.$
其中， $α(t)=1/(T−t+1)\alpha(t)=1 /(T-t+1)$ ，它是随着t的增加而增大的，表示越靠后的越准确，并且这个loss是把每一步t的置信度都进行加权了。

但是，测试时，只用最后步骤T的置信度 $p_{v}^{(T)}$ 作为输出。

对于ML-ZSL，把A扩展到 $A~∈R(∣S∣+∣U∣)dhid×(∣S∣+∣U∣)dhid\tilde{A} \in \mathbb{R}^{(|\mathcal{S}|+|\mathcal{U}|) d_{h i d} \times(|\mathcal{S}|+|\mathcal{U}|) d_{h i d}}$ ，编码知识图谱中unseen的类标签的关系。

那么，更新向量就变成：
$\mathbf{u}_{v}^{(t)}=\tanh \left(\tilde{\mathbf{A}}_{v}^{\top}\left[\mathbf{h}_{1}^{(t-1) \top} \ldots \mathbf{h}_{(|S|+|y|)}^{(t-1)} T^{\top}\right), \forall v \in \mathcal{S} \cup \mathcal{U}\right.$
输入输出函数与3.2节一致。

ML-ZSL传播机制如图4所示。

1559116136858

从图片拿到一个图像特征x，每个节点都将该图像特征传入一个神经网络，输出一个是否包含这个节点表示的类的概率。**（我猜测是学习一个从图像特征到Word Embedding的映射，这样unseen节点也可以学习）**这样，获得了KG每个节点的初始值。这个过程其实每个节点都是一个分类器，会不断地训练这个分类器的权重。
每个节点（seen和unseen）的初始值确定后，接着确定邻接矩阵A的每条边的权重：
- 从WordNet获得super-subordinate的联系
- 计算每个标签对之间的WUP相似度来确定是什么类型的关联关系，来确定使用什么类型的关联函数
- 确定关联类型之后，相同关联关系的标签对共享同一个关联函数 $FRk\mathbf{F}_R^k$ ，计算A矩阵里的每个点的权重
确定A后，即可进行标签传播，计算出对应 $uv(t)\mathbf{u}_v^{(t)}$ ，然后根据GRU门限计算出下一步的 $hv(t)\mathbf{h}_v^{(t)}$
对于每一步的 $hv(t)\mathbf{h}_v^{(t)}$ ，都有一个由全连接网络构成的输出层（输出函数 $FO\mathbf{F}_O$ ），输出图片中包含v代表的类的概率
最后对每一步每个节点的BCEloss进行加权，得到最后的loss，在反向传播回去，调整 $F_O$ （全连接层）， $G R U C e l l$ ，输入函数 $FI\mathbf{F}_I$ 。