高斯混合模型与核密度估计详解
1. k - 均值算法的弱点
在聚类分析中,k - 均值(k - Means)算法是一种常用的方法。对于简单且分离良好的数据,k - 均值算法能够快速找到合适的聚类结果。例如,我们可以使用以下代码生成简单的数据并进行聚类可视化:
%matplotlib inline
import matplotlib.pyplot as plt
import seaborn as sns; sns.set()
import numpy as np
from sklearn.datasets.samples_generator import make_blobs
# 生成数据
X, y_true = make_blobs(n_samples=400, centers=4,
cluster_std=0.60, random_state=0)
X = X[:, ::-1] # 翻转坐标轴以便更好地绘图
# 使用k - 均值进行聚类并绘制结果
from sklearn.cluster import KMeans
kmeans = KMeans(4, random_state=0)
labels = kmeans.fit(X).predict(X)
plt.scatter(X[:, 0], X[:, 1], c=labels, s=40, cmap='viridis')
然而,k - 均值算法存在一些弱点:
- 缺乏聚类分配的概率度量 :从直观上看,某些点的聚类分配比其他点更确定。但 k - 均值模
超级会员免费看
订阅专栏 解锁全文
1980

被折叠的 条评论
为什么被折叠?



