coursera上的公开课《https://www.coursera.org/course/textanalytics》系列,讲的非常不错哦。
1、text clustering的总体思想:
类似于topic mining,但要求每个text只有一个主题构成!
To generate a document, firstchoose a theta_i according to p(theta_i), and then generateall words in the document using p(w|theta_i) 。
2、text clustering和topic mining的文本产生公式的区别:
每个document的产生有区别:
语料库产生无差别:
给定documents collection C={d1,...,dn},则都是:
3、EM algorithm for text clustering:
4、(An Example of 2 Clusters for)EM text clustering:

本文介绍了Coursera上的一门课程中关于文本聚类(text clustering)与主题挖掘(topic mining)的内容。文中详细阐述了两者的区别,并通过EM算法解释了如何进行文本聚类。此外,还提供了一个双聚类的EM文本聚类示例。
1191

被折叠的 条评论
为什么被折叠?



