TF-IDF:计算文档词频的加权算法
TF
TF:term frequency 词频
IDF
逆文档率
log(总文档数/(含词频的文档数+1))
TF-IDF
=TF*IDF
以上是计算词频的权重
余弦相似(这个是计算文档的相似性)
a:利用TF-IDF进行分词,对文档的分词利用余弦公式求距离,越相似,余弦值越大
余弦公式:cos(theta)=(a^2+b^2-c^2)/2ab
TF:term frequency 词频
逆文档率
log(总文档数/(含词频的文档数+1))
=TF*IDF
以上是计算词频的权重
a:利用TF-IDF进行分词,对文档的分词利用余弦公式求距离,越相似,余弦值越大
余弦公式:cos(theta)=(a^2+b^2-c^2)/2ab