初始化
- 先为各个文档里的单词随机分配主题
- guidedLDA在初始化阶段改变了[文档:主题]的随机分布
- seed_topics-字典格式{在词袋中的位置:种子词的列表索引}
# 这是有种子词的初始化
# 遍历所有单词
for i in range(N):
# WS[k] 包含语料库中的第k个单词
# DS[k] 包含第k个单词的文档索引
w, d = WS[i], DS[i]
if w not in seed_topics:
continue
# check if seeded initialization
# 判断是否在种子词出现过
# 初始化新的主题
if w in seed_topics and random.random() < seed_confidence:
# 使用自定义的主题编号
z_new = seed_topics[w]
else:
# 否则,随机分配
z_new = i % n_topics
ZS[i] = z_new
# 矩阵对应元素+1
ndz_[d, z_new] += 1

本文深入探讨了GuidedLDA算法,一种在初始化阶段利用种子词改变文档主题随机分布的LDA变种。通过详细解释其核心公式、迭代过程及参数调整,揭示了其如何优化主题模型的构建。
最低0.47元/天 解锁文章
1616

被折叠的 条评论
为什么被折叠?



