6、无监督TreeRank算法：异常排序与二分排序的融合之道-优快云博客

本文链接：https://blog.youkuaiyun.com/vscode5coder/article/details/154559760

无监督TreeRank算法：异常排序与二分排序的融合之道

在数据处理和分析的领域中，异常排序问题是一个重要的研究方向。本文将深入探讨异常排序问题，介绍相关的背景知识、性能评估标准，以及如何将异常排序问题转化为二分排序问题，并利用二分排序算法解决异常排序问题。

1. 异常排序的背景与预备知识

在异常排序问题中，我们通常会考虑一个随机变量 (X)，它取值于一个可测空间 (X)，这里假设 (X) 是欧几里得空间 (R^d)（(d \geq 1)）的一个子集。我们用 (F(dx)) 表示 (X) 的连续概率分布，用 (f(x)) 表示相关的密度函数。观测值 (X_1, \cdots, X_n)（(n \geq 1)）被建模为随机变量 (X) 的独立副本。

为了对特征空间 (X) 进行排序，我们可以使用一个评分函数 (s: X \to R^+)。给定两个观测值 (x) 和 (x’)，如果 (s(x) \leq s(x’))，则称 (x) 比 (x’) 更异常。我们用 (S) 表示所有关于 (X) 上的勒贝格测度可积的评分函数的集合。

理想情况下，我们希望构建一个评分函数 (s)，使得 (s(X)) 越小，观测值 (X) 越异常。最优评分规则的集合 (S^ ) 是密度函数 (f(x)) 的严格递增变换的集合，且这些变换关于勒贝格测度可积，即：
[S^ = {T \circ f : T : Im(f) \to R^+ \text{ 严格递增}, \int_X T \circ f(x) \mu(dx) < +\infty}]

在后续的分析中，我们还需要满足以下技术假设：
- H1