机器学习中的LDA与PageRank算法详解
1. 潜在狄利克雷分配(LDA)
LDA是一种用于生成文本集的概率模型,下面将详细介绍其相关内容。
1.1 狄利克雷分布
狄利克雷分布是多项式分布的共轭先验,其概率密度函数为:
[p(\theta|\alpha)=\frac{\Gamma(\sum_{i = 1}^{k}\alpha_{i})}{\prod_{i = 1}^{k}\Gamma(\alpha_{i})}\prod_{i = 1}^{k}\theta_{i}^{\alpha_{i}-1}]
其中(\sum_{i = 1}^{k}\theta_{i}=1),(\theta_{i}\geq0),(\alpha = (\alpha_{1},\alpha_{2},\cdots,\alpha_{k})),(\alpha_{k}>0),(i = 1,2,\cdots,k)。
1.2 LDA模型
- 基本假设 :主题由单词的多项式分布表示,文本由主题的多项式分布表示。
- 模型元素 :在LDA模型中,每个主题的单词分布、每个文本的主题分布以及文本中每个位置的主题是隐藏变量,文本中每个位置的单词是观测变量。
- 生成过程 :
- 主题的单词分布 :随机生成所有主题的单词分布,主题的单词分布是多项式分布,其先验分布是狄利克雷分布。
- 文本的主题分布
超级会员免费看
订阅专栏 解锁全文
16

被折叠的 条评论
为什么被折叠?



