MIML系列(一):Fast Multi-Instance Multi-Label Learning 快速多示例多标签学习

目前的研究方向是基于MIML的，然而网上关于MIML的论文讲解有点少，因此打算自己看一些论文记录一下：

摘要

本篇论文主要是为了有效地处理大数据集而提出了MIMLfast方法，该方法首先构造所有标签共享的低维子空间，然后通过随机梯度下降法，对特定的线性模型进行排序，优化近似排序损失失。虽然MIML问题比较复杂，但是MIMLfast通过利用标签与共享空间的关系，发现复杂标签的子概念，可以获得很好的性能。此外，论文中的方法能够为每个标签识别最具代表性的实例，从而为理解输入模式和输出语义之间的关系提供了机会

介绍

MIMLSVM是将MIML问题退化为单实例多标签任务来解决。MIMLBoost则是将MIML退化到多实例单标签学习（这两个方法单独去看一下），但是这些方法通常是耗时的，并且不能处理大规模数据，因此极大地限制了MIML的应用。
本文提出了一种基于多实例多标签数据的MIMLfast快速学习方法，虽然使用了简单的线性模型来提高效率，但是MIMLfast提供了一个原始MIML问题的有效近似，具体来说，为了利用多个标签之间的关系，我们首先从原始特征中学习所有标签的共享空间，然后从共享空间中训练标签特定的线性模型，为了识别表示特定标签的包的关键实例，我们在实例级训练分类模型，然后选择具有最大预测的实例，为了使学习更有效率，我们使用随机梯度下降法(SGD)来优化近似的排名损失，在每次迭代中，MIMLfast随机抽取由一个袋子、一个袋子的相关标签和一个不相关标签组成的三元组作为样本，并且优化模型，如果排序是违反的（也就是与包不相关的标签的预测值大于相关标签预测值+1,1是 $m a r g i n$ ），则将相关标签的排序在非相关标签前面，而大多数MIML方法的另一个重要任务是提高泛化能力，MIML的另一个任务是为了理解输入模式和输出语义之间的关系，MIMLfast可以自然地为每个标签识别最具代表性的实例。此外，我们建议发现复杂标签的子概念，它们经常出现在MIML任务中，此外，MIMLfast使用监督模型而不是启发式聚类来发现子概念

MIMLfast方法

我们用 $\{(X_{1},Y_{1}),(X_{2},Y_{2}), \cdot \cdot \cdot (X_{n},Y_{n})\}$ 表示训练数据，其中包含 $n$ 个例子，且每个包 $X_{i}$ 包含 $z_{i}$ 个实例 $\{x_{i,1},x_{i,2}, \cdot \cdot \cdot x_{i,z_{i}}\}$ ，且 $Y_{i}$ 包含与包 $X_{i}$ 关联的标签，是所有可能的标签的子集 $\{y_{1},y_{2},\cdot \cdot \cdot y_{n}\}$

1、示例级建立分类模型

我们首先讨论如何在实例级建立分类模型，然后尝试从实例预测中获得袋子的标签，要处理多个标签的问题，最简单的方法是通过独立地为每个标签训练一个模型，将其退化为一系列的单个标签问题，然而，这种退化的方法可能会丢失信息，因为模型是单独对待标签，将每个标签独立开来而忽略它们之间的关系。本文将模型表示为两个组件的组合，第一个组件学习 $x$ 从原始特征空间到低维空间的线性映射，所有标签都共享该映射(共享空间)，然后，第二个组件根据共享空间学习标签特定的模型，这两个组件交互优化，以适应所有标签的训练示例，这样，来自每个标签的示例将有助于共享空间的优化，相关标签将互相帮助。在形式上，给定一个实例 $x$ ，我们将标签 $l$ 上的分类模型定义为:
$f_{l}\left ( x\right )=w_{l}^{T}W_{0}x$ 在公式中 $W_{0}$ 表示一个 $\times d$ 维的矩阵，是用来将原始特征向量映射到共享空间， $w_{l}$ 是标签 $l$ 的 $m$ 维权重向量(维度：我们通常会说矩阵的维度，这里的维度也不是指的空间，而是指矩阵的行数)， $d$ 和 $m$ 分别是特征空间和共享空间的维数（ $p s :$ 将每个实例从 $d$ 维映射到