TF-IDF(文档向量化)

本文介绍TF-IDF文档向量化的基本概念及其在文本相似度计算中的应用。包括TF-IDF的计算方法、向量归一化过程及通过余弦距离评估文档相似性的方法。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

TF-IDF(文档向量化)

标签(空格分隔): 数据挖掘


##名称解释
CF: 文档集的频率,是指词在文档集中出现的次数。
DF: 文档频率,是指出现词的文档数。
IDF: 逆文档频率,idf=logNdfidf=log\frac{N}{df}idf=logdfN,N为所有文档的数目。
TF : 词T在文档中的次数(频度)
TF-IDf = TF * IDF

TF值归一化
| ||Doc1|Doc2|Doc3|
|–|--|–|--|
|car|27|4|24|
|auto|3|33|0|
|insurance|0|33|29|
|best|14|0|17|

S=∑i=1MVi2(d)\sqrt{\sum_{i=1}^MV_i^2(d)}i=1MVi2(d) 表示三个文档欧式归一化方法
得到的值为30.56、46.84、41.30
最后归一化结果:NS\frac{N}{S}SN
|||Doc1|Doc2|Doc3|
|-|–||||
|car|0.88|0.09|0.58|
|auto|0.10|0.71|0|
|insurance|0|0.71|0.70|
|best|0.46|0|0.41|
根据TF如果 要找出文档集中相似的俩篇或多篇文章直接计算向量V(Doc)与其他Doc向量的余弦距离选最大的值返回。

##积分模式:
1.先算出整个文档集每个词对应的IDF
2.计算生成文档A的TF-IDF值
3.将文档集中的文档用欧式归一化(不含IDF)
4.用A内积3步中每个文档生成的向量,得到分数

eg.考虑一个假设的文档集,其中N=1000 000,词项auto、best、car、insurance
的文档频率是5000、50 000、10 000、1000。考虑查询文档"best car insurance"的积分。
|词项|查询|文档集中的一篇|内积|
|—||:-:-:-:||
||tf  \space  \space  df \space   \space   \space idf \space  \space  wt,qw_{t,q}wt,q|tf  \space  \space wf \space  \space  wt,dw_{t,d}wt,d |内积|
|auto|0 $\space$5000  \space  \space $\space$2.3  \space $\space$0|1  \space  \space  \space $\space$1  \space  \space $\space0.41∣0∣∣best∣10.41|0| |best |10.410best1\space$ 50000 \space  1.3 $\space1.3∣01.3|01.30\space \space \spaceKaTeX parse error: Can't use function '$' in math mode at position 7: \space$̲ 0 $\space\space \space \space$0|0|
|cat|1 $\space$10000 $\space$2.0  \space $\space2.0∣12.0|12.01\space \space \spaceKaTeX parse error: Can't use function '$' in math mode at position 7: \space$̲ 1 $\space\spaceKaTeX parse error: Can't use function '$' in math mode at position 7: \space$̲0.41|0.82| |ins…\spaceKaTeX parse error: Can't use function '$' in math mode at position 7: \space$̲3.0 $\space\space3.0∣23.0|23.02\space \space \spaceKaTeX parse error: Can't use function '$' in math mode at position 7: \space$̲ 2 $\space\space$$\space$0.82|2.46|
查找相似的变成得分最高的。

TF的亚线性尺度变换。

wft,d=1+logtft,d,tf>0or0,其他wf_{t,d}={1+logtf_{t,d}},tf>0 or 0,其他wft,d=1+logtft,d,tf>0or0,

缺点:每次查询都要计算所有的向量

VSM步骤:
1.准备文本
2.切词并统计词频
3.去掉极低频词和无意义词(如这个、那个、等等)
4.从剩余的词中提取文本特征,即最能代表文本的词
5.用空间向量表示文本,空间向量需标准化,即将数值映射到-1到1之间
6.利用所获取的空间向量进行聚类分析
7.交叉验证

tf-idf是一种用于向量化的技术,它可以将本转换成一个向量,以便进行机器学习和本挖掘等任务。 tf-idf是“-文档频率”(term frequency-inverse document frequency)的缩写。它是一种用于评估一个文档中的重要性的方法。tf-idf值越高,说明该文档中越重要。 tf指的是频(term frequency),即该文档中出现的次数。而idf指的是逆文档频率(inverse document frequency),它是用来衡量该在整个文档合中的重要性的。idf值越高,说明该在整个文档合中越不常见,因此在文档中出现的次数越少,但是对于文档的区分能力越强。 通过将每个文档中的汇按照tf-idf值进行加权,并将每个文档表示成一个向量,就可以将本转换成数值型的特征向量,以便进行机器学习和本挖掘等任务。 具体来说,tf-idf的计算公式为: tf-idf = tf * idf 其中,tf表示频,计算公式为: tf = (汇在文档中出现的次数) / (文档汇总数) idf表示逆文档频率,计算公式为: idf = log(文档总数 / 包含该汇的文档) 将所有文档中的汇按照tf-idf值进行加权,就可以得到一个向量表示每个文档。这个向量的维度是所有汇的数量,每个维度对应一个汇的tf-idf值。由于大多数文档中只包含某些汇,因此这个向量是非常稀疏的。 tf-idf向量化可以用于本分类、本聚类、信息检索等任务。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值