LDA (一) 文本关键词提取
LDA (三) 关键词提取2.0
LDA相关改进
测试文本到来,先LDA一把,得到主题向量,选概率最高的前K(K=10?或者根据测试文本长度来定)个主题,每个主题再选主题词向量里概率最高的N个词(N=30?),构成候选关键词集合(可以带权重,权重可以=主题概率*词概率*测试文本该词的TF-IDF), 测试文本里在候选关键词集合里的词,且权重大于一定阈值(或者个数和文本长度有关),就视为关键词。
本文介绍使用LDA主题模型进行文本关键词提取的方法,通过选取概率最高的主题及主题词,结合TF-IDF权重,确定关键词。
测试文本到来,先LDA一把,得到主题向量,选概率最高的前K(K=10?或者根据测试文本长度来定)个主题,每个主题再选主题词向量里概率最高的N个词(N=30?),构成候选关键词集合(可以带权重,权重可以=主题概率*词概率*测试文本该词的TF-IDF), 测试文本里在候选关键词集合里的词,且权重大于一定阈值(或者个数和文本长度有关),就视为关键词。

被折叠的 条评论
为什么被折叠?