7、无监督TreeRank算法:原理、实现与实验

无监督TreeRank算法:原理、实现与实验

在数据挖掘和机器学习领域,异常值检测是一个重要的任务。传统的基于模拟的异常值检测方法在高维空间中存在数据稀疏性问题,导致监督学习过程受到影响。无监督TreeRank算法则避免了模拟均匀数据,在异常值检测中展现出独特的优势。

1. 异常排名树

决策树在监督和无监督学习问题中是非常流行的技术,它能以直观的二叉树图形形式提供模型总结。对于异常排名问题,不能简单地用特征空间的划分来描述预测规则,需要对终端叶子节点进行排序以定义评分函数。

异常排名树是一种带有“从左到右”方向的二叉树,它定义了一组树结构的异常评分函数。对于深度为 $J$ 的异常排名树 $T_J$,根节点 $C_{0,0}$ 代表整个特征空间 $X$,内部节点 $(j,k)$ 对应子集 $C_{j,k} \subseteq X$,其左右子节点分别对应不相交的子集 $C_{j + 1,2k}$ 和 $C_{j + 1,2k + 1}$,且 $C_{j,k} = C_{j + 1,2k} \cup C_{j + 1,2k + 1}$。

与定向树 $T$ 相关的异常评分函数可以表示为:
[s_T(x) = \sum_{C_{j,k}: \text{终端叶子节点 of } T} 2^J \left(1 - \frac{k}{2^j}\right) \cdot I_{ {x \in C_{j,k}}}]

假设特征空间 $X$ 是紧凑的,异常评分函数 $s_T(x)$ 的MV曲线是连接以下节点的分段线性曲线:
((0,0)) 和 (\left(\sum_{l = 0}^{k} F(C_{j,l}), \sum_{l

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值