概率潜在语义分析与马尔可夫链蒙特卡罗方法
概率潜在语义分析(PLSA)
概率潜在语义分析用于研究所有可能文本的分布。其中,主题单纯形代表在 K 个主题定义下所有可能文本的分布,它是词单纯形的子集,而词单纯形代表潜在语义空间。
PLSA 的学习通常采用 EM 算法。模型的参数 $P(w|z)$ 和 $P(z|d)$ 通过迭代学习,而 $P(d)$ 可直接通过统计得出。
以下是一个文本数据集示例:
| Index words | T1 | T2 | T3 | T4 | T5 | T6 | T7 | T8 | T9 |
| — | — | — | — | — | — | — | — | — | — |
| Book | 1 | 1 | | | | | | | |
| Dads | 1 | 1 | | | | | | | |
| Dummies | 1 | 1 | | | | | | | |
| Estate | 1 | 1 | | | | | | | |
| Guide | 1 | 1 | | | | | | | |
| Investing | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 |
| Market | 1 | 1 | | | | | | | |
| Real | 1 | 1 | | | | | | | |
| Rich | 2 | 1 | | | | | | | |
| Stock | 1 | 1 | 1 | | | | | | |
| Value | 1 | 1 | | | | | | | |
可以对
超级会员免费看
订阅专栏 解锁全文
2386

被折叠的 条评论
为什么被折叠?



