基于约束的聚类算法主动查询选择及数据流聚类方法研究
1. 主动查询选择实验
1.1 实验数据集
为了评估所提出方法的性能,使用了来自UCI机器学习库的多个真实世界数据集,具体信息如下表所示:
| 数据集名称 | 实例数量 | 属性数量 | 聚类数量 |
| — | — | — | — |
| Heart | 270 | 13 | 2 |
| Breast | 683 | 9 | 2 |
| Yeast | 1484 | 8 | 10 |
| Image Segmentation | 2310 | 19 | 7 |
| Digit - 389 | 3165 | 16 | 3 |
| Magic | 19020 | 10 | 2 |
1.2 实验设置
假设存在基于约束的聚类算法,实验中使用MPCKMeans算法。在评估特定方法在给定数据集D上的性能时,从无约束开始,最多选择150个成对查询。查询的回答基于数据集的真实类标签,然后将MPCKMeans算法应用于带有生成约束的数据。整个过程重复50次独立运行,并使用归一化互信息(NMI)作为聚类验证指标来报告平均性能。对于所提出的方法,设置批处理大小b = 10。
1.3 实验结果
1.3.1 聚类性能比较
通过图1可以观察到,所提出的方法通常在与MPCKMeans聚类算法结合时优于其他约束选择方法。随着查询数量的增加,所提出的方法聚类性能平稳提升,而其他约束选择启发式方法的性能则有所下降。
与ASC方法相比,在查询数量较少时(如Yeast、Segment
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



