24、自动分组加速 K-Means 算法

最新推荐文章于 2025-09-18 13:57:40 发布

web99

最新推荐文章于 2025-09-18 13:57:40 发布

阅读量31

点赞数

CC 4.0 BY-SA版权

分类专栏：大数据分析与知识发现：前沿技术与应用文章标签： K-means Fission-Fusion k-means 聚类算法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/web99/article/details/150598118

大数据分析与知识发现：前沿技术与应用专栏收录该内容

55 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

自动分组加速 K-Means 算法

1. 引言

K-means 是数据挖掘和机器学习领域中广为人知的聚类算法，凭借其简单性和适用性，在计算机视觉、市场细分、社交网络分析等众多领域得到广泛应用。标准的 K-means 算法包含两个步骤：分配步骤将每个点分配到其最近的聚类中；更新步骤在点分配完成后更新每个聚类的中心。然而，Lloyd 的 K-means 算法时间复杂度较高，其瓶颈在于通过计算每个点到每个中心的距离来确定每个输入点的最近中心，这会产生大量不必要的距离计算。

为了加速精确的 K-means 算法，相关研究主要集中在避免不必要的距离计算，同时确保在相同初始化条件下得到与标准 K-means 相同的聚类结果。此前加速 K-means 的工作可分为两类：
- 第一类算法通过保留 K-means 的近似解来加速，虽能提升速度，但无法保证最终聚类结果与 K-means 相同。
- 第二类算法则借助一些技术实现与 K-means 完全相同的结果，例如利用高效数据结构加速最近邻搜索，或使用三角形不等式维护距离边界以避免不必要的距离计算。

本文提出了一种名为 Fission-Fusion k-means 的新型加速精确 K-means 算法，该算法在迭代过程中自动对数据点进行分组，从而显著减少不必要的距离计算。与现有加速 K-means 算法相比，Fission-Fusion k-means 不仅速度更快，而且额外内存消耗更少。

2. 相关工作

近期使用三角形不等式加速 K-means 的算法可分为两类：
- 早期加速算法 ：
- [7] 算法利用上下界减少冗余距离计

会员秒杀 ¥9.9 重磅福利

超级会员免费看

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符 | 博主筛选后可见

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。