35、高斯混合模型与核密度估计详解

最新推荐文章于 2025-11-18 15:43:21 发布

火锅TCP

最新推荐文章于 2025-11-18 15:43:21 发布

阅读量25

点赞数

CC 4.0 BY-SA版权

分类专栏：解锁Python数据科学文章标签：高斯混合模型 GMM 核密度估计

本文链接：https://blog.youkuaiyun.com/r7s8t/article/details/155051645

解锁Python数据科学专栏收录该内容

37 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

高斯混合模型与核密度估计详解

1. k - 均值算法的弱点

在聚类分析中，k - 均值（k - Means）算法是一种常用的方法。对于简单且分离良好的数据，k - 均值算法能够快速找到合适的聚类结果。例如，我们可以使用以下代码生成简单的数据并进行聚类可视化：

%matplotlib inline
import matplotlib.pyplot as plt
import seaborn as sns; sns.set()
import numpy as np
from sklearn.datasets.samples_generator import make_blobs

# 生成数据
X, y_true = make_blobs(n_samples=400, centers=4,
                       cluster_std=0.60, random_state=0)
X = X[:, ::-1]  # 翻转坐标轴以便更好地绘图

# 使用k - 均值进行聚类并绘制结果
from sklearn.cluster import KMeans
kmeans = KMeans(4, random_state=0)
labels = kmeans.fit(X).predict(X)
plt.scatter(X[:, 0], X[:, 1], c=labels, s=40, cmap='viridis')

然而，k - 均值算法存在一些弱点：
- 缺乏聚类分配的概率度量 ：从直观上看，某些点的聚类分配比其他点更确定。但 k - 均值模