TF-IDF算法详解及sklearn代码实现

TF-IDF是一种衡量词在文档中重要性的加权技术,适用于信息检索和文本挖掘。它由词频TF和逆文档频率IDF组成,高TF和低IDF的词具有更好的类别区分能力。sklearn提供了CountVectorizer进行TF-IDF计算,jieba库也可实现TF-IDF算法。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

目录

 

1.基本介绍

(1)TF(词频 Term Frequency)

(2)IDF(逆向文件频率 Inverse Document Frequency)

(3)TF-IDF=TF*IDF

代码实现:

(1)sklearn代码实现

(2)Jieba实现TF-IDF算法


1.基本介绍

定义:TF-IDF(Term Frequency-Inverse Document Frequency, 词频-逆文本频率)。TF指词频,IDF指的是逆文本频率。TF-IDF是一种用于信息检索与数据挖掘的常用加权技术可以评估一个词在一个文件集或者一个语料库中对某个文件的重要程度。一个词语在一篇文章中出现的次数越多,同时在所有文章中出现的次数越少,越能够代表该文章的中心意思,字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降,这就是TF-IDF的含义。适用于信息检索、文本挖掘的常用加权技术。

 TF-IDF的主要思想是如果某个单词在一篇文章中出现的频率TF高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用来分类。

(1)TF(词频 Term Frequency)

词频表示词条(关键字)在文本中出现的频率。这个数字通常会被归一化(一般是词频除以文章总词数), 以防止它偏向长的文件。

公式:

 

 词条W在一个文件中出现的次数/该文件中所有词条数目

         其中 ni,j 是该词在文件 dj 中出现的次数,分母则是文档 dj 中所有词汇出现的次数总和;

(2)IDF(逆向文件频率 Inverse Document Frequency)

某一特定词语的IDF,可以由总文件数目除以包含该词语的文件的数目,再将得到的商取对数得到

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值