上一篇我们做完了词频统计,下面就该提取文本特征了。其实词的频率就是文本最重要的特征了,但是我们如果只靠词的频率去判断文本的分类的话,显然正确率是很低的。
当然,文本的特征提取有很多办法了,我上这门课程老师着重介绍的是TF-IDF和卡方校验两种。
我们先来看IF-IDF的计算方法:
词频(term frequency,TF)指的是某一个给定的词语在该文件中出现的频率。
逆向文件频率(inverse document frequency,IDF)。某一特定词语的IDF,可以由总文件数目除以包含该词语之文件的数目,再将得到的商取对数得到。
IDF是一个词语普遍重要性的度量。
TF-IDF值即是TF值与IDF值之积。
TF-IDF综合表征了该词在文档中的重要程度和文档区分度。但在文本分

博客介绍了在文本分类中特征提取的重要性,重点关注了TF-IDF和卡方检验两种方法。TF-IDF结合词频和逆向文件频率评估词的重要性,但可能忽视某些特征词在分类间的分布差异。卡方检验则用于衡量特征词在类别间的分布差异,帮助选择更有区分度的特征。
最低0.47元/天 解锁文章
1653

被折叠的 条评论
为什么被折叠?



