社交与信息网络中的机器学习应用
在社交与信息网络领域,机器学习技术发挥着至关重要的作用,涵盖了文档分析、主题建模、链接预测等多个方面。下面将详细介绍其中的一些关键技术和模型。
文档 - 词矩阵分解
文档 - 词矩阵 (A) 可以分解为 (A = L · U · R)。其中,(L) 和 (R) 是低秩矩阵,(U) 是对角矩阵。具体来说,矩阵 (L) 包含文档概率 (P(d|z)),对角矩阵 (U) 包含主题的先验概率 (P(z)),矩阵 (R) 包含词概率 (P(w|z))。
潜在狄利克雷分配(LDA)
LDA 是一种用于主题建模的生成式概率模型。考虑一个包含 (D) 个文档的数据集,每个文档有 (T) 个主题,每个主题是一个包含 (K) 个元素的多项分布,每个元素是语料库中的一个词。LDA 的生成过程如下:
1. 为每个文档 :
- 从具有缩放参数 (\alpha) 的均匀狄利克雷分布中抽取一个主题分布 (\theta_d \sim Dir(\alpha))。
- 对于文档中的每个词 :
- 从多项分布 (\theta_d) 中抽取一个特定的主题 (z_{d,n} \sim multi(\theta_d))。
- 从 (\beta_{z_{d,n}}) 中抽取一个词 (w_{d,n} \sim \beta_{z_{d,n}})。
文档中潜在变量的后验分布为:
[p(\theta, z|w, \alpha, \beta) = \frac{p(\theta, z, w|\alpha, \beta)}{p(w
社交网络中的机器学习应用
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



