闵可夫斯基加权K均值初始化方法研究
在数据聚类领域,准确地将实体分组到同质簇中是一项具有挑战性的任务。K-Means算法是最著名的聚类算法之一,但它在处理包含噪声特征的数据集时表现不佳。为了解决这个问题,研究人员提出了加权K-Means(WK-Means)和闵可夫斯基加权K-Means(MWK-Means)算法。本文将深入探讨MWK-Means算法的初始化方法,并通过实验比较不同初始化方法的性能。
1. K-Means与MWK-Means算法概述
K-Means算法通过迭代最小化一个准则函数,将数据集划分为K个不重叠的簇。其准则函数如下:
[W(S, C) = \sum_{k=1}^{K} \sum_{i \in S_{k}} d(y_{i}, c_{k})]
其中,(d(y_{i}, c_{k})) 是实体 (y_{i}) 与其所属簇 (S_{k}) 的质心 (c_{k}) 之间的相异度。K-Means算法允许使用任何距离函数,本文主要关注闵可夫斯基度量,其定义为:
[d_{p}(y_{i}, c_{k}) = (\sum_{v=1}^{V} |y_{iv} - c_{kv}|^{p})^{\frac{1}{p}}]
当 (p = 1) 和 (p = 2) 时,闵可夫斯基度量分别等价于曼哈顿度量和欧几里得度量。
然而,K-Means算法对所有特征一视同仁,在处理包含噪声特征的数据集时准确性较低。为了解决这个问题,Huang等人提出了WK-Means算法,旨在为不太相关的特征分配较低的权重。在此基础上,研究人员进一步改进,提出了MWK-Means算法,其迭代最小化的准则函数如下:
[W_{p}(S, C, w) = \sum_{k
超级会员免费看
订阅专栏 解锁全文
1276

被折叠的 条评论
为什么被折叠?



