TF-IDF(文档向量化)
标签(空格分隔): 数据挖掘
##名称解释
CF: 文档集的频率,是指词在文档集中出现的次数。
DF: 文档频率,是指出现词的文档数。
IDF: 逆文档频率,idf=logNdfidf=log\frac{N}{df}idf=logdfN,N为所有文档的数目。
TF : 词T在文档中的次数(频度)
TF-IDf = TF * IDF
TF值归一化
| ||Doc1|Doc2|Doc3|
|–|--|–|--|
|car|27|4|24|
|auto|3|33|0|
|insurance|0|33|29|
|best|14|0|17|
S=∑i=1MVi2(d)\sqrt{\sum_{i=1}^MV_i^2(d)}∑i=1MVi2(d) 表示三个文档欧式归一化方法
得到的值为30.56、46.84、41.30
最后归一化结果:NS\frac{N}{S}SN
|||Doc1|Doc2|Doc3|
|-|–||||
|car|0.88|0.09|0.58|
|auto|0.10|0.71|0|
|insurance|0|0.71|0.70|
|best|0.46|0|0.41|
根据TF如果 要找出文档集中相似的俩篇或多篇文章直接计算向量V(Doc)与其他Doc向量的余弦距离选最大的值返回。
##积分模式:
1.先算出整个文档集每个词对应的IDF
2.计算生成文档A的TF-IDF值
3.将文档集中的文档用欧式归一化(不含IDF)
4.用A内积3步中每个文档生成的向量,得到分数
eg.考虑一个假设的文档集,其中N=1000 000,词项auto、best、car、insurance
的文档频率是5000、50 000、10 000、1000。考虑查询文档"best car insurance"的积分。
|词项|查询|文档集中的一篇|内积|
|—||:-:-:-:||
||tf \space \space df \space \space \space idf \space \space wt,qw_{t,q}wt,q|tf \space \space wf \space \space wt,dw_{t,d}wt,d |内积|
|auto|0 $\space$5000 \space \space $\space$2.3 \space $\space$0|1 \space \space \space $\space$1 \space \space $\space0.41∣0∣∣best∣10.41|0|
|best |10.41∣0∣∣best∣1\space$ 50000 \space 1.3 $\space1.3∣01.3|01.3∣0\space \space \spaceKaTeX parse error: Can't use function '$' in math mode at position 7: \space$̲ 0 $\space\space \space \space$0|0|
|cat|1 $\space$10000 $\space$2.0 \space $\space2.0∣12.0|12.0∣1\space \space \spaceKaTeX parse error: Can't use function '$' in math mode at position 7: \space$̲ 1 $\space\spaceKaTeX parse error: Can't use function '$' in math mode at position 7: \space$̲0.41|0.82|
|ins…\spaceKaTeX parse error: Can't use function '$' in math mode at position 7: \space$̲3.0 $\space\space3.0∣23.0|23.0∣2\space \space \spaceKaTeX parse error: Can't use function '$' in math mode at position 7: \space$̲ 2 $\space\space$$\space$0.82|2.46|
查找相似的变成得分最高的。
TF的亚线性尺度变换。
wft,d=1+logtft,d,tf>0or0,其他wf_{t,d}={1+logtf_{t,d}},tf>0 or 0,其他wft,d=1+logtft,d,tf>0or0,其他
缺点:每次查询都要计算所有的向量。
VSM步骤:
1.准备文本
2.切词并统计词频
3.去掉极低频词和无意义词(如这个、那个、等等)
4.从剩余的词中提取文本特征,即最能代表文本的词
5.用空间向量表示文本,空间向量需标准化,即将数值映射到-1到1之间
6.利用所获取的空间向量进行聚类分析
7.交叉验证