k-means 算法介绍
k-means 算法是一种经典的聚类算法,其目的是将数据集分成 ( k ) 个不同的簇,每个簇内的数据点尽可能接近。算法的基本思想是通过反复迭代优化簇中心的位置,使得每个簇内的点与簇中心的距离之和最小。k-means 算法的具体步骤如下:
-
初始化:随机选择 ( k ) 个点作为初始簇中心。
-
分配簇:对于数据集中每一个点,计算其到所有簇中心的距离,并将其分配到最近的簇。
-
更新中心:重新计算每个簇的中心,即簇内所有点的平均值。
-
重复步骤2和3,直到簇中心不再发生变化或达到预设的迭代次数。
代码示例及可视化
以下是一个使用 Python 实现 k-means 算法并进行可视化的示例:
import numpy as np
import matplotlib.pyplot as plt
from sklearn.datasets import make_blobs
from sklearn.cluster import KMeans
# 生成示例数据
np.random.seed(42)
X, _ = make_blobs(n_samples=300, centers=4, cluster_std=0.60, random_state=0)
# 运行 k-means 算法
kmeans = KMeans(n_clusters=4)
kmeans.fit(X)
y_kmeans = kmeans.predict(X)
# 绘制结果
plt.scatter(X[:, 0], X[:, 1], c=y_kmeans, s=5