一、实验目的和内容
1、掌握选择term的方法;
2、权重计算(TermWeighting):即计算每篇文 权重计算(Term Weighting):即计算每篇文 档中每个term的权重,计算TF、IDF;
3、查询和文档的相似度计算(Siili • 查询和文档的相似度计算(Similarity Computation)。
二、实验过程
1、读取文档使用 vector_map来存储文件。
2、去除停用词
文档总有一些比如”的”、”是”、”在”这一类最常用的词,它们叫做”停用词”(stop words),对找到结果毫无帮助,所以计算特征词权重时需要把它们过滤掉。实际操作中通常会有一个停用词文件,事先需要读取该文件获取所有停用词,判断一个词是否是停用词,只需要在停用词表查找即可。
3、计算TF-IDF
TF计算因子代表了词频,即一个单词在文档中出现的次数,一般来说,在某个文档中反复出现的单词,往往能够表征文档的主题信息,即Tf值越大,越能代表文档所反映的内容,那么应该给于这个单词更大的权值。
具体计算词频因子的时候,基于不同的出发点,可以采用不同的计算公式。 最直接是使用词频数作为TF。
一种词频因子的变体计算公式是:Tf=1+log(Tf),即将词频数值Tf取log值作为词频权值,比如单词在文档中出现过4次,则它的词频因子权值为3。公式中加1是为了考虑词