前期训练数据使用的工具包是LDA, [ 文档传送 ]
如果需要Java版本,可以参考下面链接,本文也是基于此文改写为python,不得不说,python还是要简洁的多哈哈
https://blog.youkuaiyun.com/dongweionly/article/details/50286961
代码
'''
dw是文档-词矩阵,dt是经过LDA训练后的文档-主题矩阵,tw是经过LDA训练后的主题-词矩阵
'''
def compute_perplexity(doc_word,doc_topic,topic_word):
sum_ln_pt = 0
sum_t = 0
for doc_n,a in enumerate(doc_word):