多标签的不平衡

A First Approach to Deal with Imbalance in Multi-label Datasets

该论文主要定义了如何去度量多标签数据集的不平衡度。

IRperLabel ⁡ ( y ) = arg max ⁡ ( ∑ i = 1 ∣ D ∣ h ( y ′ , Y i ) ) Y ∣ Y ∣ y ′ = Y 1 ∑ i = 1 ∣ D ∣ h ( y , Y i ) , h ( y , Y i ) = { 1 y ∈ Y i 0 y ∉ Y i . \operatorname{IRperLabel}(y)=\frac{\underset{y^{\prime}=Y_1}{\stackrel{Y_{\vert Y \vert}}{\argmax\left(\sum_{i=1}^{|D|} h\left(y^{\prime}, Y_i\right)\right)}}}{\sum_{i=1}^{|D|} h\left(y, Y_i\right)}, \quad h\left(y, Y_i\right)=\left\{\begin{array}{ll} 1 & y \in Y_i \\ 0 & y \notin Y_i \end{array} .\right. IRperLabel(y)=i=1Dh(y,Yi)y=Y1argmax(i=1Dh(y,Yi))YY,h(y,Yi)={10yYiy/Yi.

其中 ∣ D ∣ \vert D \vert D ∣ Y ∣ \vert Y \vert Y 分别表示数据集样本数和标签种数, y y y 表示一种标签, Y i Y_i Yi 表示第 i i i 种标签集, h ( y , Y i ) h(y,Y_i) h(y,Yi) 返回第 i i i 个样本标签 y y y 的逻辑标签。
整个式子想表达的意思就是拥有最多正标签的标签与目标标签的一个比值,加入目标标签就是拥有最多正标签的标签则比值为 1,目标标签拥有的正标签越少则不平衡度越大。

MeanIR ⁡ = 1 ∣ Y ∣ ∑ y = Y 1 Y ∣ Y ∣ ( IRperlabel(y) ⁡ ) \operatorname{MeanIR}=\frac{1}{\vert Y \vert}\sum_{y=Y_1}^{Y_{\vert Y \vert}}(\operatorname{IRperlabel(y)}) MeanIR=Y1y=Y1YY(IRperlabel(y))

用该公式可以计算出整个数据集的一个不平衡度。

C V I R =  IRperLabel  σ  MeanIR  ,  IRperLabel  σ = ∑ y = Y 1 Y ∣ Y ∣ (  IRperLabel  ( y ) −  MeanIR  ) 2 ∣ Y ∣ − 1 . C V I R=\frac{\text { IRperLabel }_{\sigma}}{\text { MeanIR }}, \quad \text { IRperLabel }_{\sigma}=\sqrt{\sum_{y=Y_1}^{Y_{|Y|}} \frac{(\text { IRperLabel }(y)-\text { MeanIR })^2}{|Y|-1}} . CVIR= MeanIR  IRperLabel σ, IRperLabel σ=y=Y1YYY1( IRperLabel (y) MeanIR )2 .

该式子(标准差)表明是否所有标签都有相似的不平衡水平,或者相反,它们之间有很大的差异。CVIR越高,这个差异就越大。

Approaching imbalanced multilabel learning through synthetic instance generation

Minority instances selection

IRperlabel ⁡ ( y ) > MeanIR ⁡ \operatorname{IRperlabel}{(y)}>\operatorname{MeanIR} IRperlabel(y)>MeanIR,标签 y y y 为少数类。
对每一种标签进行一次判断,找到所有的少数类。
为每一个少数类标签生成一个 bag,里面的样本都拥有该标签。
这里值得注意的是同一个样本可能会出现在不同的 bag 中,因为它可以与多个少数类标签相关联。

Neighbor set selection

在每一个 bag 中,为每一个样本寻找 k k k 个邻居,一般 k = 5 k=5 k=5。可以使用 KNN 来实现该步骤。

Feature set and label set generation

人造特征向量:
目标样本作为种子,在其邻居中随机找一个样本作为 ref,插值生成特征向量;
人造标签向量有以下三种方法:

  • Intersection: Only the labels which appear in the reference sample and all its neighbors will be in the synthetic labelset.
  • Union: All the labels which appear in the reference sample orany of its neighbors will be in the synthetic labelset.
  • Ranking: A counting of the number of occurrences of each label in the reference sample and its neighbors is made, including in the synthetic labelset those present in half or more of the instances considered, as usual in most voting schemes.
    通过实验对比,应用于本论文算法时,方案一效果最差,方案三最优。

在对目标 bag 生成新数据的同时,不仅会影响目标 bag 的 IRlbl(IRperLabel),还会影响其它 bag 的值,因此在每一个周期开始之前,都要重新计算该值,如果超过 MeanIR,则不在为该 bag 生成新数据。

Cost-sensitive multi-label learning with positive and negative label pairwise correlations

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值