文本特征表示方法——词频-逆文档频率(TF-IDF)

TF-IDF是一种用于评估词汇在文档集合中重要性的方法。词频(TF)衡量词在文档内的频率,逆文档频率(IDF)则考虑词在整个文档集的分布。TF-IDF结合两者,作为特征选择的依据,高TF-IDF值的词更能区分文档类别。例如,高频词‘我’不能有效区分文档,而低频词‘高兴’可能反映文档情感。IDF公式为log(N/df_t),其中N为文档总数,df_t为包含该词的文档数。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

文本特征表示方法——词频-逆文档频率(TF-IDF)

0 引言

\qquad词频-逆文档频率(TF-IDF)是Salton于1988年提出的一种权重计算方法,用于判断字词对于一个文档集合的重要性。在介绍TF-IDF之前,需要先对词频(TF)、逆文档频率(IDF)分别进行介绍。

1 词频(Term Frequency, TF)

\qquad词频(Term Frequency, TF)即词的频率,表示词条项在一个文档中出现的频率,计算公式如下:

tft,d=ft,dndtf_{t,d} = \frac{f_{t,d}}{n_{d}}tft,d=ndft,d

\qquad其中,tft,dtf_{t,d}tft,d表示词条项ttt在某文档DDD中词频,ft,df_{t,d}ft,d表示文档DDD中,特征词条ttt的频度(次数),ndn_{d}nd表示文档DDD中所有词条项的总数量。本文中将词条项归一化后的结果作为词频,而有些文章会直接以词条项出现的次数作为词频,但是这就导致了文档长度会对词条项权重产生影响。

\qquad但是词频仅仅考虑了词条项在某文档中的频率,而没有考虑词条项对于整个文档库或语料库的重要程度,并且也无法判断某词条项对不同文档的重要性,即词频无法作为文档类别区分的有效特征。比如,"我"在每篇文档中都有,它的词频很大,但这个字并不能有效区分文档类别。相反,"高兴"可能只出现在个别文档当中,它的词频很小,但是这个词条项却可以让我们知道,带有"喜欢"的文档的情感极性是正的。

2 逆向文档频率(inverse document frequency, IDF)

\qquad逆向文档频率(inverse document frequency, IDF)是一种度量词条项在文档中重要性的方式。IDF的原理是对于某一个特征词条项,包含此词条项的文档数量越少,此词条项就具有越强的文档类别特征。具体公式如式:

idft=log⁡ Ndft\text{id}f_{t} = \log{\ \frac{N}{df_{t}}}idft=log dftN

\qquad其中,idft\text{id}f_{t}idft为词条项ttt的逆文档频率,NNN为所有文档数量,dftdf_{t}dft为文档频率(document frequency),表示出现词条项ttt的所有文档的数量。需要强调的是,在具体计算过程中,常常会将dft+1df_{t} + 1dft+1,防止出现词条项不在语料库中而造成分母为0的现象。

3 词频-逆文档频率(TF-IDF)

\qquad词频-逆文档频率(TF-IDF)即通过综合考虑词的TF与IDF来计算特征词项的权重,其计算方法即特征词项的词频与逆文档频率的乘积。其计算公式:

tf−idft,d=tft,d ×idft\text{tf}-\text{id}f_{t,d} = tf_{t,d}\ \times \text{id}f_{t}tfidft,d=tft,d ×idft

\qquad对以上公式进行通俗解释:当词项只在少数几篇文档中多次出现时,权值最大,因为此时该词条能够对文档提供最强的区分能力;当词项在某篇文档中出现次数很少,或者在很多文档中出现,权重取值次之;当词项在所有文档中都出现时,权值最小。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值