提升分类性能:集成方法的应用与实验
1 单类分类集成方法
1.1 装袋最小生成树类描述符(Bagging MST CD)
装袋(Bagging)是一种流行的集成方法,由Breiman提出。它通过对训练集进行重采样来训练集成中的每个分类器。设训练数据集为 $X = [x_1, \cdots, x_N]$,是一个 $N \times n$ 的矩阵,其中 $N$ 是样本数量,$x_i = [x_{i1}, \cdots, x_{in}]^T$ 是由 $n$ 个特征描述的数据样本。装袋从 $X$ 中均匀且有放回地采样,生成 $L$ 个大小为 $N’$($N’ \leq N$)的新训练数据集 $X’_i$。有些样本可能不在某些 $X’_i$ 中出现,有些可能会重复出现。
最小生成树类描述符(MST CD)方法对训练数据的变化非常敏感,因为它使用了整个最小生成树。因此,装袋可以应用于 MST CD 以提高这种单类分类方法的鲁棒性。然而,尽管装袋对分类器有积极影响,但异常值在最终分类器中的影响仍然存在。
1.2 加权装袋最小生成树类描述符(Weighted Bagging MST CD)
在传统的装袋中,所有样本在集成分类器中出现的概率相同。每个自助样本包含与训练集相同数量的样本,但有重复样本。如果所有样本概率相同,异常值样本很可能包含在大多数自助样本中。为了克服这个问题,引入了加权装袋。
加权装袋通过核密度估计器根据样本与目标类的接近程度赋予样本概率权重。具体来说,使用迭代方法估计概率权重。初始时,每个样本被赋予相同的概率权重。在第 $k$ 次迭代时,概率权重的估计公式为:
$w_k(i) = w_{k - 1}(
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



