TF-IDF: 文本的一种向量表示

TF-IDF是一种将文本转化为数字向量的常用算法,常用于NLP领域。它结合了词频和逆文档频率,使得在文本中的重要词获得高权重,而常见词汇的权重降低。TF-IDF广泛应用于文本分类、主题模型和信息抽取等任务。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

TF-IDF是Term Frequency-Inverse Document Frequency的简称。她是一种非常常见的用于将文本转化为有意义的数字表示的算法。这个技术被广泛的应用与NLP的各个方面。本文将会介绍怎样计算和应用TF-IDF。

文本的向量表示

为了将机器学习算法或统计技术应用到任何形式的文本上,应当将文本转化为数字或向量形式。这种数字表示应当能够描绘出本文的显著特征。有很多技术都可以做到这一点,比如,出现次数(occurrence),词频(term-frequency),TF-IDF,词共现矩阵(word co-occurrence matrix),word2vec和Glove。

基于出现次数的向量表达

由于TF-IDF是一个基于occurence的文本数字化表达,让我们先来看看之前的基于occurence的方法以及TF-IDF怎样优于他们。一种最简单的方法就是用一个词在整个语料中出现的次数来表达它。

词频

我们假设,一个词的值更高意味着这个词在给定文本中的重要性越高。这是很正确的想法,但是如果语料中的文本有不同的大小呢?这样一来,大文本中的词自然会比小文本中的词出现次数更多。因此,一个更好的表示就是基于文本的大小对词的出现次数进行标准化,这个表示被称作词频(term-frequency)。
数学上,一个词的词频的定义如下:
tf(w)=doc.count(w)/total words in doctf(w) = doc.count(w)/total\,words\,in\,doctf(w)=doc.count(w)/totalwordsindoc

Inverse Document Frequency

当计算词频时,每个词都是同样重要的,并且有机会获得它的向量表示。但是,一些词在所有的文本都很常见,以至于这些词对确定文本的意义没有什么什么作用。比如“the”,“a”,“in”,“of”等等,这些词会抑制更有意义的词的权重。因此,为了减轻这个影响,词频被一个称为逆文本频率的因子所(inverse document frequency)折减。
idf(w)=log(total number of documentsnumber of documents containing word w)idf(w) = log(\frac{total\, number\,of\,documents}{number\,of\,documents\,containing\,word\,w})idf(w)=log(numberofdocumentscont</

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值