重加权森林:极端多标签分类的高效解决方案
在极端多标签分类领域,如何提高分类精度、减少存储和测试时间是关键问题。本文将介绍一种基于重加权森林(Reweighting Forest,ReWF)的方法,它通过两个关键阶段——重加权阶段和预测试阶段,有效解决了这些问题。
1. 重加权阶段
在极端多标签学习中,标签通常遵循幂律分布,即少数标签频繁出现,而大多数标签很少出现。这些不常出现的标签被称为尾部标签,它们虽然训练实例少、难以预测,但往往包含更多有价值的信息。传统方法处理尾部标签的方式各不相同,本文采用间接方法来增强对这些难分类实例的学习。
1.1 重加权机制的设计
受到森林加权规则相关工作的启发,设计了一种重加权机制。该机制的核心思想是通过调整实例的权重,增加难分类实例被选中构建树的机会,从而提高分类精度。具体步骤如下:
1. 输入数据 :使用学习部分 $D_t$ 作为输入,通过基于树的多标签分类方法生成树。
2. 构建森林 :不一次性构建整个森林,而是重复构建较小的树簇(clump)。给定树的上限 $Q$,森林 $F$ 将由 $c$ 个树簇级联构建而成。
3. 实例加权 :为每个实例分配一个权重,初始时所有实例的权重相同。对于每个生成的树簇 $C_j$,将这些树发送到预测试阶段。同时,每个树 $T_{jn}$ 预测训练部分 $D_t$ 中所有实例的标签向量。
4. 计算投票结果 :对于第 $j$ 个树簇的第 $n$ 棵树,实例 $x_i$ 的预测标签向量记为 $\ha
超级会员免费看
订阅专栏 解锁全文
30

被折叠的 条评论
为什么被折叠?



