西湖大学自然语言处理(九)—— 特征向量和如何将文档映射到特征空间中

Feature Vector

Review Navie Bayes

在这里插入图片描述

Feature vectors

在这里插入图片描述
ϕ ⃗ \vec{\phi} ϕ 表示从 1 − ∣ V ∣ 1-|V| 1V个词在d中出现的次数

ϕ ⃗ \vec{\phi} ϕ θ ⃗ s p o r t s \vec{\theta}_{sports} θ sports 长度相同,都是 ∣ V ∣ |V| V,这俩按位相称再求和就是朴素贝叶斯的计算公式

Vector Space Model

在这里插入图片描述

Vector representation of documents

在这里插入图片描述

Sparse vectors document representation

在这里插入图片描述

Stop words

在这里插入图片描述

TF-IDF vectors document representation

在这里插入图片描述
T F − I D F TF-IDF TFIDF T F TF TF 指w这个词在d这篇文档中出现的次数, D F DF DF 指这个词在不同文档中出现的次数, D F DF DF 取倒数就是 I D F IDF IDF
在这里插入图片描述
在这里插入图片描述
可以清楚的看出,与count-based vector相比,用了TF-IDF计算后的向量,a的权重很明显的降低了不少

Summary

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值