不确定数据上的Top-k典型性查询与概率排名查询
1. Top-k典型性查询
1.1 典型性分析示例
以NBA球员数据为例,在后卫球员中,三分球和助攻是常见技能,但在其他位置球员中可能并不普遍。通过对后卫球员进行top - 10代表性典型性查询和top - 10简单典型性查询,结果显示两类查询的前10名后卫在三分球和助攻方面差异较大。例如,最典型的后卫Ronald Murray代表经验丰富且表现出色的NBA后卫,而第二典型的Andre Owens代表表现相对较差的后卫群体。
同时,通过NBA数据集比较中位数、均值和典型实例的差异。结果表明,中位数和均值的简单典型性得分通常远低于最典型的球员,这说明几何中心可能无法反映概率密度分布。如Ronald Murray被认定为最典型的后卫,而Charlie Bell是中位数后卫。技术统计显示,Murray的篮板数比Bell少,但助攻更多,且Murray本赛季参赛76场,而Bell仅参赛59场。在76 ± 6 = [70, 82]的参赛场次范围内有92名后卫,而在59 ± 6 = [53, 65]范围内只有31名后卫,这表明更多后卫的参赛场次与Murray相似。
为比较典型性分析和聚类分析的差异,使用k - medoids聚类算法对所有后卫进行2聚类。聚类的中位数球员为{Ronald Murray, Stephon Marbury},其群体典型性得分为0.105,而表4.5中前2名最具代表性典型后卫{Ronald Murray, Andre Owens}的群体典型性得分为0.161。聚类分析找到的球员集的代表性仅为top - k代表性典型性查询找到的球员集的65%。