##1、第j篇文档中第i个词语的tfij计算公式为:第j篇文档中第i个词语的tf_{ij}计算公式为:第j篇文档中第i个词语的tfij计算公式为:
tfij=nij∑knkjtf_{ij}=\frac{n_{ij}}{\sum_{k} n_{kj}}tfij=∑knkjnij
- nij是指词ti在dj文档中出现的次数,分母表示文档dj中所有词出现之和。n_{ij}是指词t_{i}在d_{j}文档中出现的次数,分母表示文档d_{j}中所有词出现之和。nij是指词ti在dj文档中出现的次数,分母表示文档dj中所有词出现之和。
##2、idf的计算公式为:idf的计算公式为:idf的计算公式为:
idfi=log∣D∣∣{j:ti∈dj}∣+1idf_{i}=log\frac{|D|}{|\{j:t_{i}\in d_{j}\}|+1}idfi=log∣{j:ti∈dj}∣+1∣D∣
-
∣D∣语料库中文件总数|D|语料库中文件总数∣D∣语料库中文件总数
-
∣{j:ti∈dj}∣是包含词语ti的文件数目,如果该词语不在该预料库中除数就为0,因此+1防止除数为0。|\{j:t_{i}\in d_{j}\}|是包含词语t_{i}的文件数目,如果该词语不在该预料库中除数就为0,因此+1防止除数为0。∣{j:ti∈dj}∣是包含词语ti的文件数目,如果该词语不在该预料库中除数就为0,因此+1防止除数为0。
##3、最终计第j篇文档中第i个词语的tfidfij计算公式为:最终计第j篇文档中第i个词语的tfidf_{ij}计算公式为:最终计第j篇文档中第i个词语的tfidfij计算公式为:
tfidfij=tfif×idfitfidf_{ij}=tf_{if} \times idf_{i}tfidfij=tfif×idfi -
某一特定文件内的高词语频率,以及该词语在整个文件集合中的低文件频率,可以产生出高权重的TF-IDF。因此,TF-IDF倾向于过滤掉常见的词语,保留重要的词语
注:i 代表词的编号,j 代表文档的编号i\ 代表词的编号,j\ 代表文档的编号i 代表词的编号,j 代表文档的编号