一、需求分析
我们知道LDA主题模型的最优主题数可以使用困惑度来衡量,但使用困惑度确定最优主题已经被论文证明其实是不适用的。那有没有一种可行的方法计算出最优主题数呢?答案是肯定的,很多论文都会使用主题方差确定最优主题数,本文就是基于主题方差得出最优的主题数。
二、主题方差
1、KL散度
相对熵(relative entropy),又被称为Kullback-Leibler散度(Kullback-Leibler divergence),是一种度量两个概率分布(probability distribution)间差异的优化算法。KL散度可以计算两个LDA主题方差之间相似度,所以本文基于KL散度实现主题方差。
2、主题方差
主题方差即主题词概率分布之间的离差程度,常用的主题方差计算公式为:
其中, T i T_i Ti表示抽取的主题,K 表示抽取的主题数,Ω代表“主题-词”概率分布归一化后的均值,KL( T i T_i T