【GuidedLDA】代码分析

本文深入探讨了GuidedLDA算法,一种在初始化阶段利用种子词改变文档主题随机分布的LDA变种。通过详细解释其核心公式、迭代过程及参数调整,揭示了其如何优化主题模型的构建。

初始化

  • 先为各个文档里的单词随机分配主题
  • guidedLDA在初始化阶段改变了[文档:主题]的随机分布
  • seed_topics-字典格式{在词袋中的位置:种子词的列表索引}
# 这是有种子词的初始化
# 遍历所有单词
for i in range(N):
    # WS[k] 包含语料库中的第k个单词
    # DS[k] 包含第k个单词的文档索引
    w, d = WS[i], DS[i]
    if w not in seed_topics:
        continue
    # check if seeded initialization
    # 判断是否在种子词出现过
    # 初始化新的主题
    if w in seed_topics and random.random() < seed_confidence:
        # 使用自定义的主题编号
        z_new = seed_topics[w]
    else:
        # 否则,随机分配
        z_new = i % n_topics
    ZS[i] = z_new
    # 矩阵对应元素+1
    ndz_[d, z_new] += 1
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值