TF-IDF词频逆文档频率算法

本文详细介绍了TF-IDF词频逆文档频率算法的原理,并结合Spark MLlib展示了如何使用HashingTF和CountVectorizer进行词频计算,以及如何通过IDFModel进行特征重缩放。代码案例中,通过Tokenizer分词、TF计算和IDF处理,将文本转换为可用于机器学习的向量表示。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

一.原理分析

词频逆文档频率(TF-IDF) 是一种特征向量化方法,广泛用于文本挖掘中,以反映术语对语料库中文档的重要性。用t表示术语,用d表示文档,用D表示语料库。TF(t,d) 表示术语频率是术语在文档中出现的次数,而DF(t,D)文档频率是包含术语的文档在语料库中出现的次数。如果我们仅使用术语频率来衡量重要性,那么很容易过分强调那些经常出现但几乎不包含有关文档信息的术语,例如“a”,“the”和“of”。如果术语经常出现在整个语料库中,则表示该术语不包含有关特定文档的特殊信息。逆文档频率度量的是一个术语提供了多少信息。
在这里插入图片描述
|D|表示所述语料库中的文件总数。由于使用对数,因此如果一个术语出现在所有文档中,则其IDF值将变为0。请注意,应用了平滑术语以避免对主体外的术语除以零。TF-IDF度量只是TF和IDF的乘积:
在这里插入图片描述
术语频率和文档频率的定义有多种变体。在MLlib中,我们将TF和IDF分开以使其具有灵活性。

TF:HashingTF和CountVectorizer均可用于生成项频率向量。

HashingTF是一个Transformer它接受一组术语并将其转换为固定长度的特征向量。在文本处理中,“一组术语”可能是一袋单词。 HashingTF利用哈希技巧。通过应用哈希函数将原始特征映射到索引(项)。这里使用的哈希函数是MurmurHash 3。然后根据映射的索引计算词频。这种方法避免了需要计算全局项到索引图的情况,这对于大型语料库可能是昂贵的,但是它会遭受潜在的哈希冲突,即哈希后不同的原始特征可能变成同一术语。为了减少冲突的机会,我们可以增加目标特征的维数,即哈希表的存储桶数。由于使用散列值的简单模来确定向量索引,因此建议使用2的幂作为特征维,否则特征将不会均匀地映射到向量索引。默认特征尺寸为2的18次方=262,144。可选的二进制切换参数控制项频率计数。当设置为true时,所有非零频率计数都设置为1。这对于模拟二进制而不是整数计数的离散概率模型特别有用。

CountVectorizer将文本文档转换为术语计数向量。

IDF是Estimator训练数据集并产生的IDFModel。所述 IDFModel需要的特征向量(通常从创建HashingTF或CountVectorizer)和缩放每个特征。从直觉上讲,它降低了经常出现在语料库中的特征的权重。

注意: spark.ml不提供文本分割工具。推荐使用斯坦福 NLP Group和 scalanlp / chalk。

二.代码案例

在下面的代码段中,从一组句子开始。使用将每个句子分成单词Tokenizer。对于每个句子(单词袋),用HashingTF将句子散列为特征向量。用IDF重新缩放特征向量;使用文本作为特征时,通常可以提高性能。然后,把特征向量传递给学习算法。

package spark2.ml

import org.apache.log4j.{
   Level, Logger}
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值