西湖大学自然语言处理(九)—— 特征向量和如何将文档映射到特征空间中
Feature Vector
Review Navie Bayes
Feature vectors
ϕ
⃗
\vec{\phi}
ϕ表示从
1
−
∣
V
∣
1-|V|
1−∣V∣个词在d中出现的次数
ϕ ⃗ \vec{\phi} ϕ 与 θ ⃗ s p o r t s \vec{\theta}_{sports} θsports 长度相同,都是 ∣ V ∣ |V| ∣V∣,这俩按位相称再求和就是朴素贝叶斯的计算公式
Vector Space Model
Vector representation of documents
Sparse vectors document representation
Stop words
TF-IDF vectors document representation
T
F
−
I
D
F
TF-IDF
TF−IDF中
T
F
TF
TF 指w这个词在d这篇文档中出现的次数,
D
F
DF
DF 指这个词在不同文档中出现的次数,
D
F
DF
DF 取倒数就是
I
D
F
IDF
IDF
可以清楚的看出,与count-based vector相比,用了TF-IDF计算后的向量,a的权重很明显的降低了不少