python文本处理--TF-IDF原理及实例演示

该博客介绍了TF-IDF的概念,解释了TF-IDF如何评估词语在文件集中的重要性,并提供了实例演示,通过Python进行文本处理,分析数据与语料库的相似度。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

python文本处理 – TF-IDF原理及实例演示

代码基于python 3.5.2
简要概述:

TF-IDF(Term Frequency-Inverse Document Frequency, 词频-逆文件频率).
是一种用于资讯检索与资讯探勘的常用加权技术。TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。
简言之:一个词语在某一文本中出现越多,在其他文本中出现越少,越能代表这一文本。

原理解释:

在理解原理之前,先理解其中的几个专有词汇:

语料(corpus):一组原始文本的集合,用于无监督地训练文本主题的隐层结构。语料中不需要人工标注的附加信息。在Gensim中,corpora是文档集的表现形式,也是后续进一步处理的基础。从本质上来说,corpora其实是一种格式或者说约定,其实就是一个二维矩阵
向量(vector):由一组文本特征构成的列表。是一段文本在Gensim中的内部表达。
词典(dictionary):是所有文档中所有单词的集合,而且记录了各词的出现次数等信息。

词频 (term frequency, TF)
某一个给定的词语在该文件中出现的次数。这个数字通常会被归一化(一般是词频除以文章总词数), 以防止它偏向长的文件。(同一个词语在长文件里可能会比短文件有更高的词频,而不管该词语重要与否。)

公式:

TFw=w
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值