- 博客(1)
- 收藏
- 关注
原创 TFIDF
概念: TFIDF中的TF是termFrequency即词频,是词在文档中出现的频率,用词出现的次数除以文档中词的总数。以防止它偏向长的文件。这里词的总数是词1出现3次,词2出现5次,总数就是3+5=8次。 而IDF是InverseDocument Frequency,可以由总的文件数目除以包含该词的文件数目,再取对数。10为底的对数。
2013-04-28 15:33:13
706
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人