机器学习中的聚类与分类实践
1. 聚类分析
在数据分析中,聚类是一种重要的无监督学习方法,它能够将数据点划分为不同的组,使得同一组内的数据点具有相似的特征。以下将详细介绍聚类分析的过程和应用。
1.1 贝叶斯高斯混合模型
Ross在进行聚类分析时,对结果感到兴奋,因为这些聚类在特征方面似乎具有独特性。但他希望找到一种能自动确定最优组件数量的算法,最终选定了贝叶斯高斯混合模型(Bayesian Gaussian Mixture Model)。
该模型是高斯混合模型的一种变体,当 weight_concentration_prior 设置得足够小,且 n_components 设置得比模型所需的数量大时,它能自行选择最优的聚类数量。变分贝叶斯混合模型会将一些混合权重值设为接近零,从而让模型自动选择有效组件。
Ross决定将该模型应用于数据矩阵,并将组件数量限制为5,他想看看模型认为的最优组件数量是多少。以下是训练模型和绘制聚类的代码:
matrix, x_cols = matrix_from_df(data_train)
X = matrix[x_cols].as_matrix()
dpgmm = mixture.BayesianGaussianMixture(n_components=3,
covariance_type='full', random_state=1).fit(X)
labels = dpgmm.pre
超级会员免费看
订阅专栏 解锁全文
2万+

被折叠的 条评论
为什么被折叠?



