机器学习实验—文档建模

一、实验目的和内容

        1、掌握选择term的方法;

        2、权重计算(TermWeighting):即计算每篇文 权重计算(Term Weighting):即计算每篇文 档中每个term的权重,计算TF、IDF;

        3、查询和文档的相似度计算(Siili • 查询和文档的相似度计算(Similarity Computation)。

二、实验过程

        1、读取文档
        使用 vector_map来存储文件。
        2、去除停用词
        文档总有一些比如”的”、”是”、”在”这一类最常用的词,它们叫做”停用词”(stop words),对找到结果毫无帮助,所以计算特征词权重时需要把它们过滤掉。实际操作中通常会有一个停用词文件,事先需要读取该文件获取所有停用词,判断一个词是否是停用词,只需要在停用词表查找即可。
        3、计算TF-IDF
        TF计算因子代表了词频,即一个单词在文档中出现的次数,一般来说,在某个文档中反复出现的单词,往往能够表征文档的主题信息,即Tf值越大,越能代表文档所反映的内容,那么应该给于这个单词更大的权值。 
        具体计算词频因子的时候,基于不同的出发点,可以采用不同的计算公式。 最直接是使用词频数作为TF。 
        一种词频因子的变体计算公式是:Tf=1+log(Tf),即将词频数值Tf取log值作为词频权值,比如单词在文档中出现过4次,则它的词频因子权值为3。公式中加1是为了考虑词
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值