0 背景
在上一篇的用CHI检验的文章中我们已经获得了特征词,这些特征词在某一篇文章中出现的频率是不一样的,也可以说词与词的重要性是不一样的。为了标示特征词语的重要程度,就必须赋权重。在本篇文章中,我们使用的方法是TFIDF。
1 VSM向量空间模型
哎?不是讲TFIDF吗,怎么会有VSM向量空间模型呢。是这样,在经过CHI提取到特征词后,然后再用TFIDF给特征词赋权值以后,这样就会组成一个向量:(term1,权重值;term2,权重值;........;termn,权重值),n为特征词的数量。这样的向量就是VSM。每篇文章都可以表示为这样的向量。
比如说吧,对所有的训练样本经过CHI检验后,提取到的特征词有(“篮球”,“范冰冰”,“航空母舰”,“NBA”,“股票”,“综艺”,“娱乐圈”)这些词,当然真实的特征词肯定是成千上万的,在这里只是简单地举一个例子。当有一篇文章时,比如内容是“范冰冰是娱乐圈的人,范冰冰真的很红!”,那根据上面的特征词向量,那么只用“范冰冰”和“娱乐圈”两个词就可以表示这篇文章了。

TFIDF是一种用于信息检索与文本挖掘的常用技术,它通过结合词频(TF)和逆文档频率(IDF)来评估单词在文档中的重要性。在文本分类中,TFIDF能赋予具有区分能力的词较高权重。计算TFIDF时,TF反映了词在文档内的频繁程度,而IDF则考虑了词在整个文档集合中的稀有程度。实验表明,基于原始文章总词数计算TFIDF可以获得更高的分类准确率。
最低0.47元/天 解锁文章
820

被折叠的 条评论
为什么被折叠?



