部分排名集合中异常项的查找与分析
1. 部分排名集合的统计量
部分排名集合用 $D$ 表示,它涉及集合 $M$ 中的所有元素,但部分元素之间的相互排名未明确指定。给定集合 $D$,可以计算一些描述它的统计量,如下表所示:
|统计量|描述|
| ---- | ---- |
|集合 $D$ 的大小|集合 $D$ 中元素的数量|
|部分排名的长度分布|各部分排名的长度情况|
|元素的出现频率|元素在集合中出现的频率|
|元素的共现频率|元素共同出现的频率|
其中,由于数据包含排名信息,最重要的统计量与元素的相互顺序有关。对于每对元素 $(u, v)$,$u, v \in M$,考虑元素 $u$ 在 $D$ 中先于元素 $v$ 的概率,记为 $Pr(u \prec v)$。可以通过 $D$ 中 $u$ 排在 $v$ 之前的部分排名的比例来估计 $Pr(u \prec v)$。若 $u$ 和 $v$ 从未在部分排名中同时出现,则 $Pr(u \prec v) = Pr(v \prec u) = 0.5$,且始终有 $Pr(u \prec v) + Pr(v \prec u) = 1$。这些概率被排列在一个 $|M| \times |M|$ 的矩阵 $C_D$ 中,即 $C_D(u, v) = Pr(u \prec v)$,称 $C_D$ 为与部分排名集合 $D$ 相关联的对序矩阵。
所有上述统计量可用于定义所有可能的部分排名集合上的等价类,用 $C(D)$ 表示与集合 $D$ 具有完全相同统计量的部分排名集合的类。
2. 查找异常项
设 $D’$ 是 $D$ 的一个子集,通常通过对 $D
超级会员免费看
订阅专栏 解锁全文
173万+

被折叠的 条评论
为什么被折叠?



