基于概率模型的聚类

最新推荐文章于 2024-12-01 18:11:41 发布

多线程

最新推荐文章于 2024-12-01 18:11:41 发布

阅读量8.3k

点赞数 5

CC 4.0 BY-SA版权

分类专栏：机器学习&&数据挖掘&&推荐系统文章标签：聚类学习

本文链接：https://blog.youkuaiyun.com/WOJIAOSUSU/article/details/58606586

机器学习&&数据挖掘&&推荐系统专栏收录该内容

37 篇文章

订阅专栏

基于概率模型的聚类

　　我们之所以在数据集上进行聚类分析，是因为我们假定数据集中的对象属于不同的固有类别。即聚类分析的目的就是发现隐藏的类别。
　　从统计学上讲，我们可以假定隐藏的类别是数据空间的一个分布，可以使用不同的概率密度函数（或者分布函数）进行精确的表示。我们称这种隐藏的类别为概率簇。对于一个概率簇C，它的密度函数f和数据空间的点o, f(o)是C的一个实例在o上出现的相对似然。
　　假设我们想通过聚类分析找出K个聚类簇C1，C2..C k。对于n个对象的数据集D，我们可以把D看做这些簇的可能实例的一个有限样本。从概念上讲，我们可以假定D按如下方法形成。每个簇Cj（1<=j<=k）都与一个实例从该簇抽烟的概率Wj相关联。通常假定W1,W2…Wk作为问题设置的一部分给定，并且W1+W2+…+Wk=1，确保所有对象都有这K个簇产生。其实说白了就是：数据集D被认为是由这K个簇产生的，有了这一个前提之后，基于概率模型的聚类分析的任务是推导出最可能产生数据集D的K个聚类簇。接下来就是度量K个聚类簇的集合和它们的概率产生观测数据集的似然。
　　我们假定每个对象是独立的产生的，因此对于数据集D={O1,O2,O3…}，我们有：