题目 :求出文本的TFIDF
TFIDF = TF * IDF (TFIDF值越大,说明该词可以很好的区分文件,预测主题能力越强)
IF(词频) = (该词在文件中出现的次数)/(文件总的词数)
IDF(逆向文件频率) = log2[(总文件数)/(该词出现的文件数目)];
输入:2 //代表总的文件数
s,t //每一行代表一个文件
s,f
输出 :0.00,0.50 //输出保留两位小数,中间用逗号隔开
0.00,0.
这道编程题目要求计算文本的TFIDF值,以衡量词汇区分文件的能力。TF-IDF值由词频(IF)和逆向文件频率(IDF)相乘得出。解题关键在于使用map统计字符在各文件中的出现次数和文件总数,注意同一行内多次出现的字符只计一次。通过公式计算并输出结果。
题目 :求出文本的TFIDF
TFIDF = TF * IDF (TFIDF值越大,说明该词可以很好的区分文件,预测主题能力越强)
IF(词频) = (该词在文件中出现的次数)/(文件总的词数)
IDF(逆向文件频率) = log2[(总文件数)/(该词出现的文件数目)];
输入:2 //代表总的文件数
s,t //每一行代表一个文件
s,f
输出 :0.00,0.50 //输出保留两位小数,中间用逗号隔开
0.00,0.
1458

被折叠的 条评论
为什么被折叠?