LDA (三) 关键词提取2.0

最新推荐文章于 2025-07-15 16:19:48 发布

零一睡不醒

最新推荐文章于 2025-07-15 16:19:48 发布

阅读量7.7k

点赞数

CC 4.0 BY-SA版权

分类专栏： NLP

本文链接：https://blog.youkuaiyun.com/qq_34333481/article/details/85696245

前言：对于第一个版本的基于LDA的文本关键词提取实现了给定文本，提取其关键的功能。后来有需求变动，需要给出所提取的关键词的重要程度排名。便有一个问题：如何判断文本自身的词语的重要性几何，其打分的依据是什么。这也是所有关键词提取方法中最重要的一步。

思路：1. LDA模型训练得到 topic_word 。由此可以知道每个topic 由哪些单词所代表，以及每个单词在这个topic的重要性得分。

2. 对于测试集文本，经过LDA模型之后，得到该文本对应的topic（通常一个文本会有多个topic，舍弃概率小的，保留大概率的topic）。由1得到的每个topic包含的单词，将其赋值给测试集文本，作为候选关键词。而对于每个候选关键词，其得分 score= 每个topic的概率*每个单词属于该topic的概率。

实现算法：在LDA模型完成之后的后续代码。

a = lda.print_topics(num_topics=6)
topic_word_dict = {}
for k in range(num_topics):
    b = lda.print_topic(k)
    b = b.split(' + ')
    word_score_list = []
    for i in b:
        temp1 = i.split('*')
        #print(temp1)
        temp1[1] = eval(temp1[1])
        word_score_list.append(temp1)
    topic_word_dict[k] = word_score_list
#print(topic_word_dict)

doc_topic_dict = {}  # key: 第i篇文章 val