TFIDF
-
TF
Term Frequency,即词频,它表示一个词在文档中出现的次数。计算公式:
TF=某个词在文档中出现的次数文档的总词数TF = \frac{某个词在文档中出现的次数}{文档的总词数}TF=文档的总词数某个词在文档中出现的次数
某个词出现越多,表示它约重要。
某个词越少见,就越能表达一篇文章的特性,反之则越不能。 -
IDF
Inverse Document Frequency,即逆文档频率,它是一个表达词语重要性的指标。
计算公式:
IDF=log(语料库中的文档数包含该词的文档数+1) IDF=log( \frac{语料库中的文档数}{包含该词的文档数+1}) IDF=log(包含该词的文档数+1语料库中的文档数)
如果所有文章都包涵某个词,该词的IDF=log(1)=0IDF=log(1)=0IDF=log(1)=0,即重要性为零。停用词的IDF约等于0。
如果某个词只在很少的文章中出现,则IDF很大,其重要性也越高。
-
TF-IDF
计算公式:
TFTFTF-IDFIDFIDF =TF×IDF= TF × IDF=TF×IDF
如果某个词在一篇文章中出现的频率高,并且在其他文章中很少出现,则认为此词具有很好的类别区分能力
LDA
-
LDA定义
LDA(Latent Dirichlet Allocation)是一种文档主题生成模型,也称为一个三层贝叶斯概率模型,包含词、主题和文档三层结构。所谓生成模型,就是说,我们认为一篇文章的每个词都是通过“以一定概率选择了某个主题,并从这个主题中以一定概率选择某个词语”这样一个过程得到。
文档到主题服从多项式分布,主题到词服从多项式分布。
LDA是一种非监督机器学习技术,可以用来识别大规模文档集(document collection)或语料库(corpus)中潜藏的主题信息。它采用了词袋(bag of words)的方法,这种方法将每一篇文档视为一个词频向量,从而将文本信息转化为了易于建模的数字信息。
-
LDA生成过程
对于语料库中的每篇文档,LDA定义了如下生成过程:
1.对每一篇文档,从主题分布中抽取一个主题;
2.从上述被抽到的主题所对应的单词分布中抽取一个单词;
3.重复上述过程直至遍历文档中的每一个单词。 -
LDA整体流程
定义:文档集合D,主题(topic)集合T
D中每个文档d看作一个单词序列<w1,w2,...,wn><w1,w2,...,wn>

本文深入探讨了TF-IDF、LDA和LSA三种文本分析算法,详细介绍了它们的原理和计算公式。TF-IDF用于衡量词在文档中的重要性,LDA是一种主题模型,能识别文档集中的潜在主题,而LSA则通过向量表示词和文档,捕捉它们之间的潜在语义关系。
最低0.47元/天 解锁文章

2750

被折叠的 条评论
为什么被折叠?



