数据采样与运动员评级算法的实验研究
在数据处理和分析领域,采样算法和概率推断算法在不同场景中发挥着重要作用。本文将介绍两种不同类型的算法实验,一是基于密度的采样算法(BBS)在不同数据集上的表现,二是期望传播(EP)算法在运动员评级中的应用。
基于密度的采样算法实验
在实验中,使用了三种不同的数据集,分别是合成数据集 “OneBig”、“UniformClusters” 以及真实数据集 “Pendigits”。
- 数据集介绍
- “OneBig” 数据集有 20 个属性和 9 个聚类,其中一个聚类包含 50000 个点,其他聚类各包含 1000 个点,剩余 10000 个点为随机分布的噪声(占比 15%)。
- “UniformClusters” 有 2 个属性和 5 个聚类,形成一个大圈、两个小圈、两个由离群点链连接的椭球体,以及散布在整个空间的随机离群点,呈现均匀的簇内分布。
- “Pendigits” 是真实世界数据集,有 16 个属性和 10992 个点。
- 实验方法
1. 对每个数据集运行 BBS 算法,同时为了对比,还运行了 DBS 采样算法、GBS 算法和均匀采样(US)算法,针对不同采样率生成四个样本集。
2. 评估样本在保留完整数据集关于聚类分布的原始属性方面的质量。每个实验重复 10 次,生成具有相同参数的 10 个样本,给出的数值是处理每组 10 个样本的平均值。
3. 根据相关文献的指示调整 DBS 算法的参数,参数 a 对于包含噪声和不同密度聚类(包括小聚类)的数据集设置为 -0.25,DBS 的核数量设置为 100
超级会员免费看
订阅专栏 解锁全文
928

被折叠的 条评论
为什么被折叠?



