无监督TreeRank算法:原理、实现与实验
在数据挖掘和机器学习领域,异常值检测是一个重要的任务。传统的基于模拟的异常值检测方法在高维空间中存在数据稀疏性问题,导致监督学习过程受到影响。无监督TreeRank算法则避免了模拟均匀数据,在异常值检测中展现出独特的优势。
1. 异常排名树
决策树在监督和无监督学习问题中是非常流行的技术,它能以直观的二叉树图形形式提供模型总结。对于异常排名问题,不能简单地用特征空间的划分来描述预测规则,需要对终端叶子节点进行排序以定义评分函数。
异常排名树是一种带有“从左到右”方向的二叉树,它定义了一组树结构的异常评分函数。对于深度为 $J$ 的异常排名树 $T_J$,根节点 $C_{0,0}$ 代表整个特征空间 $X$,内部节点 $(j,k)$ 对应子集 $C_{j,k} \subseteq X$,其左右子节点分别对应不相交的子集 $C_{j + 1,2k}$ 和 $C_{j + 1,2k + 1}$,且 $C_{j,k} = C_{j + 1,2k} \cup C_{j + 1,2k + 1}$。
与定向树 $T$ 相关的异常评分函数可以表示为:
[s_T(x) = \sum_{C_{j,k}: \text{终端叶子节点 of } T} 2^J \left(1 - \frac{k}{2^j}\right) \cdot I_{
{x \in C_{j,k}}}]
假设特征空间 $X$ 是紧凑的,异常评分函数 $s_T(x)$ 的MV曲线是连接以下节点的分段线性曲线:
((0,0)) 和 (\left(\sum_{l = 0}^{k} F(C_{j,l}), \sum_{l
超级会员免费看
订阅专栏 解锁全文
2万+

被折叠的 条评论
为什么被折叠?



