对于这个题目,开始毫无头绪,后来经过查阅资料现在讲方法总结如下: 1、利用余弦定理 我们知道向量 a,b之间的夹角可用余弦定理求得: 如果夹角的余弦值越小,那么夹角也越大。如果2个向量相等,那么其值为1。利用此我们可以用来比较文章的相似性。 首先使用一个向量来描述一篇文章,对于一篇文章中的实词,我们可以计算出它们的单文本词汇频率/逆文本频率值(TF/IDF)。不难想象,和新闻主题有关的那些实词频率高,TF/IDF 值很大。我们按照这些实词在词汇表的位置对它们的 TF/IDF 值排序。比如,词汇表有六万四千个词,分别为 单词编号 汉字词 ------------------ 1 阿 2 啊 3 阿斗 4 阿姨 ... 789 服装 .... 64000 做作 在一篇新闻中,这 64,000 个词的 TF/IDF 值分别为 &nbs