6、闵可夫斯基加权K均值初始化方法研究

最新推荐文章于 2025-11-15 16:51:51 发布

assembly8low

最新推荐文章于 2025-11-15 16:51:51 发布

阅读量11

点赞数

CC 4.0 BY-SA版权

分类专栏：智能数据分析的前沿探索文章标签： MWK-Means 加权K均值闵可夫斯基度量

本文链接：https://blog.youkuaiyun.com/assembly8low/article/details/153708660

智能数据分析的前沿探索专栏收录该内容

48 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

闵可夫斯基加权K均值初始化方法研究

在数据聚类领域，准确地将实体分组到同质簇中是一项具有挑战性的任务。K-Means算法是最著名的聚类算法之一，但它在处理包含噪声特征的数据集时表现不佳。为了解决这个问题，研究人员提出了加权K-Means（WK-Means）和闵可夫斯基加权K-Means（MWK-Means）算法。本文将深入探讨MWK-Means算法的初始化方法，并通过实验比较不同初始化方法的性能。

1. K-Means与MWK-Means算法概述

K-Means算法通过迭代最小化一个准则函数，将数据集划分为K个不重叠的簇。其准则函数如下：
[W(S, C) = \sum_{k=1}^{K} \sum_{i \in S_{k}} d(y_{i}, c_{k})]
其中，(d(y_{i}, c_{k})) 是实体 (y_{i}) 与其所属簇 (S_{k}) 的质心 (c_{k}) 之间的相异度。K-Means算法允许使用任何距离函数，本文主要关注闵可夫斯基度量，其定义为：
[d_{p}(y_{i}, c_{k}) = (\sum_{v=1}^{V} |y_{iv} - c_{kv}|^{p})^{\frac{1}{p}}]
当 (p = 1) 和 (p = 2) 时，闵可夫斯基度量分别等价于曼哈顿度量和欧几里得度量。

然而，K-Means算法对所有特征一视同仁，在处理包含噪声特征的数据集时准确性较低。为了解决这个问题，Huang等人提出了WK-Means算法，旨在为不太相关的特征分配较低的权重。在此基础上，研究人员进一步改进，提出了MWK-Means算法，其迭代最小化的准则函数如下：
[W_{p}(S, C, w) = \sum_{k

会员秒杀 ¥9.9 重磅福利

超级会员免费看