TF-IDF(文档向量化)

最新推荐文章于 2025-04-14 14:45:50 发布

原创最新推荐文章于 2025-04-14 14:45:50 发布 · 3.7k 阅读

4 ·

CC 4.0 BY-SA版权

文章标签：

#数据挖掘

自然语言处理(NLP) 专栏收录该内容

9 篇文章

订阅专栏

本文介绍TF-IDF文档向量化的基本概念及其在文本相似度计算中的应用。包括TF-IDF的计算方法、向量归一化过程及通过余弦距离评估文档相似性的方法。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

TF-IDF(文档向量化)

标签（空格分隔）：数据挖掘

##名称解释
CF: 文档集的频率，是指词在文档集中出现的次数。
DF: 文档频率，是指出现词的文档数。
IDF: 逆文档频率， $idf=logNdfidf=log\frac{N}{df}$ ,N为所有文档的数目。
TF : 词T在文档中的次数（频度）
TF-IDf = TF * IDF

TF值归一化
| ||Doc1|Doc2|Doc3|
|–|--|–|--|
|car|27|4|24|
|auto|3|33|0|
|insurance|0|33|29|
|best|14|0|17|

S= $∑i=1MVi2(d)\sqrt{\sum_{i=1}^MV_i^2(d)}$ 表示三个文档欧式归一化方法
得到的值为30.56、46.84、41.30
最后归一化结果： $NS\frac{N}{S}$
|||Doc1|Doc2|Doc3|
|-|–||||
|car|0.88|0.09|0.58|
|auto|0.10|0.71|0|
|insurance|0|0.71|0.70|
|best|0.46|0|0.41|
根据TF如果要找出文档集中相似的俩篇或多篇文章直接计算向量V（Doc）与其他Doc向量的余弦距离选最大的值返回。

##积分模式：
1.先算出整个文档集每个词对应的IDF
2.计算生成文档A的TF-IDF值
3.将文档集中的文档用欧式归一化（不含IDF）
4.用A内积3步中每个文档生成的向量，得到分数

eg.考虑一个假设的文档集，其中N=1000 000，词项auto、best、car、insurance
的文档频率是5000、50 000、10 000、1000。考虑查询文档"best car insurance"的积分。
|词项|查询|文档集中的一篇|内积|
|—||:-:-:-:||
||tf $\space$ $\space$ df $\space$ $\space$ $\space$ idf $\space$ $\space$ $w_{t,q}$ |tf $\space$ $\space$ wf $\space$ $\space$ $w_{t,d}$ |内积|
|auto|0 $\space$5000 $\space$ $\space$ $\space$2.3 $\space$ $\space$0|1 $\space$ $\space$ $\space$ $\space$1 $\space$ $\space$ $\space $0.41 ∣ 0 ∣ ∣ b e s t ∣ 1$ \space$ 50000 $\space$ 1.3 $\space $1.3 ∣ 0$ \space $\space$ \space $KaTeX parse error: Can't use function '$' in math mode at position 7: \space$̲ 0 $\space$ \space $\space$ \space$0|0|
|cat|1 $\space$10000 $\space$2.0 $\space$ $\space $2.0 ∣ 1$ \space $\space$ \space $KaTeX parse error: Can't use function '$' in math mode at position 7: \space$̲ 1 $\space$ \space $KaTeX parse error: Can't use function '$' in math mode at position 7: \space$̲0.41|0.82| |ins…$ \space $KaTeX parse error: Can't use function '$' in math mode at position 7: \space$̲3.0 $\space$ \space $3.0 ∣ 2$ \space $\space$ \space $KaTeX parse error: Can't use function '$' in math mode at position 7: \space$̲ 2 $\space$ \space$$\space$0.82|2.46|
查找相似的变成得分最高的。