24、高斯混合模型:聚类与异常检测的利器

高斯混合模型:聚类与异常检测的利器

1. 聚类算法概述

在低维空间中,谱聚类是一种聚类算法(Scikit - Learn 的实现使用 K - Means)。谱聚类能够捕捉复杂的聚类结构,还可用于图分割,例如识别社交网络中的好友群组。不过,它在处理大量实例时扩展性不佳,且当聚类大小差异很大时表现也不好。接下来,我们将深入探讨高斯混合模型,它可用于密度估计、聚类和异常检测。

2. 高斯混合模型基础

高斯混合模型(GMM)是一种概率模型,它假设实例是由多个参数未知的高斯分布混合生成的。从单个高斯分布生成的所有实例形成一个通常呈椭球形的聚类。每个聚类可以有不同的椭球形状、大小、密度和方向。

当观察到一个实例时,我们知道它是由某个高斯分布生成的,但不知道是哪一个,也不知道这些分布的参数。在最简单的 GMM 变体中,需要预先知道高斯分布的数量 k。数据集 X 假定是通过以下概率过程生成的:
- 对于每个实例,从 k 个聚类中随机选择一个聚类。选择第 j 个聚类的概率由聚类的权重 ϕ(j) 定义。第 i 个实例所选聚类的索引记为 z(i)。
- 如果 z(i)=j,即第 i 个实例被分配到第 j 个聚类,那么该实例的位置 x(i) 是从均值为 μ(j) 且协方差矩阵为 Σ(j) 的高斯分布中随机采样得到的,记为 x(i) ∼ N(μ(j), Σ(j))。

这个生成过程可以用图形模型表示,其中圆圈代表随机变量,方块代表固定值(即模型的参数),大矩形称为板块,指示其内容会重复多次,板块右下角的数字表示内容重复的次数。

3. 高斯混合模型的参数估计

使用 Scikit - Learn 的 Ga

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值