13、机器学习中的聚类与分类实践

机器学习中的聚类与分类实践

1. 聚类分析

在数据分析中,聚类是一种重要的无监督学习方法,它能够将数据点划分为不同的组,使得同一组内的数据点具有相似的特征。以下将详细介绍聚类分析的过程和应用。

1.1 贝叶斯高斯混合模型

Ross在进行聚类分析时,对结果感到兴奋,因为这些聚类在特征方面似乎具有独特性。但他希望找到一种能自动确定最优组件数量的算法,最终选定了贝叶斯高斯混合模型(Bayesian Gaussian Mixture Model)。

该模型是高斯混合模型的一种变体,当 weight_concentration_prior 设置得足够小,且 n_components 设置得比模型所需的数量大时,它能自行选择最优的聚类数量。变分贝叶斯混合模型会将一些混合权重值设为接近零,从而让模型自动选择有效组件。

Ross决定将该模型应用于数据矩阵,并将组件数量限制为5,他想看看模型认为的最优组件数量是多少。以下是训练模型和绘制聚类的代码:

matrix, x_cols = matrix_from_df(data_train)
X  = matrix[x_cols].as_matrix()
dpgmm = mixture.BayesianGaussianMixture(n_components=3,
                                        covariance_type='full', random_state=1).fit(X)
labels = dpgmm.pre
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值