多标签的不平衡

原创已于 2025-01-07 14:50:37 修改 · 546 阅读

20 ·

CC 4.0 BY-SA版权

文章标签：

#机器学习 #人工智能

于 2025-01-03 14:19:21 首次发布

标签分布同时被 2 个专栏收录

7 篇文章

订阅专栏

label enhancement

3 篇文章

订阅专栏

文章目录

A First Approach to Deal with Imbalance in Multi-label Datasets

该论文主要定义了如何去度量多标签数据集的不平衡度。

$\operatorname{IRperLabel}(y)=\frac{\underset{y^{\prime}=Y_1}{\stackrel{Y_{\vert Y \vert}}{\argmax\left(\sum_{i=1}^{|D|} h\left(y^{\prime}, Y_i\right)\right)}}}{\sum_{i=1}^{|D|} h\left(y, Y_i\right)}, \quad h\left(y, Y_i\right)=\left\{\begin{array}{ll} 1 & y \in Y_i \\ 0 & y \notin Y_i \end{array} .\right.$

其中 $\vert D \vert$ ， $\vert Y \vert$ 分别表示数据集样本数和标签种数， $y$ 表示一种标签， $Y_i$ 表示第 $i$ 种标签集， $h(y,Y_i)$ 返回第 $i$ 个样本标签 $y$ 的逻辑标签。
整个式子想表达的意思就是拥有最多正标签的标签与目标标签的一个比值，加入目标标签就是拥有最多正标签的标签则比值为 1，目标标签拥有的正标签越少则不平衡度越大。

$\operatorname{MeanIR}=\frac{1}{\vert Y \vert}\sum_{y=Y_1}^{Y_{\vert Y \vert}}(\operatorname{IRperlabel(y)})$

用该公式可以计算出整个数据集的一个不平衡度。

$R=\frac{\text { IRperLabel }_{\sigma}}{\text { MeanIR }}, \quad \text { IRperLabel }_{\sigma}=\sqrt{\sum_{y=Y_1}^{Y_{|Y|}} \frac{(\text { IRperLabel }(y)-\text { MeanIR })^2}{|Y|-1}} .$

该式子（标准差）表明是否所有标签都有相似的不平衡水平，或者相反，它们之间有很大的差异。CVIR越高，这个差异就越大。

Approaching imbalanced multilabel learning through synthetic instance generation

Minority instances selection

当 $\operatorname{IRperlabel}{(y)}>\operatorname{MeanIR}$ ，标签 $y$ 为少数类。
对每一种标签进行一次判断，找到所有的少数类。
为每一个少数类标签生成一个 bag，里面的样本都拥有该标签。
这里值得注意的是同一个样本可能会出现在不同的 bag 中，因为它可以与多个少数类标签相关联。

Neighbor set selection

在每一个 bag 中，为每一个样本寻找 $k$ 个邻居，一般 $k = 5$ 。可以使用 KNN 来实现该步骤。

Feature set and label set generation

人造特征向量：
目标样本作为种子，在其邻居中随机找一个样本作为 ref，插值生成特征向量；
人造标签向量有以下三种方法：

Intersection: Only the labels which appear in the reference sample and all its neighbors will be in the synthetic labelset.
Union: All the labels which appear in the reference sample orany of its neighbors will be in the synthetic labelset.
Ranking: A counting of the number of occurrences of each label in the reference sample and its neighbors is made, including in the synthetic labelset those present in half or more of the instances considered, as usual in most voting schemes.
通过实验对比，应用于本论文算法时，方案一效果最差，方案三最优。

在对目标 bag 生成新数据的同时，不仅会影响目标 bag 的 IRlbl(IRperLabel)，还会影响其它 bag 的值，因此在每一个周期开始之前，都要重新计算该值，如果超过 MeanIR，则不在为该 bag 生成新数据。