【GuidedLDA】代码分析

最新推荐文章于 2025-11-21 05:40:38 发布

原创

最新推荐文章于 2025-11-21 05:40:38 发布 · 4.8k 阅读

9 ·

CC 4.0 BY-SA版权

文章标签：

#python #guidedlda #lda

本文深入探讨了GuidedLDA算法，一种在初始化阶段利用种子词改变文档主题随机分布的LDA变种。通过详细解释其核心公式、迭代过程及参数调整，揭示了其如何优化主题模型的构建。

初始化

先为各个文档里的单词随机分配主题
guidedLDA在初始化阶段改变了[文档:主题]的随机分布
seed_topics-字典格式{在词袋中的位置:种子词的列表索引}

# 这是有种子词的初始化
# 遍历所有单词
for i in range(N):
    # WS[k] 包含语料库中的第k个单词
    # DS[k] 包含第k个单词的文档索引
    w, d = WS[i], DS[i]
    if w not in seed_topics:
        continue
    # check if seeded initialization
    # 判断是否在种子词出现过
    # 初始化新的主题
    if w in seed_topics and random.random() < seed_confidence:
        # 使用自定义的主题编号
        z_new = seed_topics[w]
    else:
        # 否则，随机分配
        z_new = i % n_topics
    ZS[i] = z_new
    # 矩阵对应元素+1
    ndz_[d, z_new] += 1