NLP系列文章(三)——文本向量的表示方法

基于词向量的表示方法

虽然one-hot和TF-IDF的表示方式也成为词向量,但是我们这里讨论的基于词向量的表示方式是围绕分布式词表征进行的。也就是利用Word2Vec、GloVe和fastText等词向量对文本进行表示,词向量可以根据任务或者资源的不同随意选择,文本表示的方法是通用的。

首先我们根据语料库训练词向量,也就是针对文本中的每个词汇,我们均有它的向量表示。当要获得每个文本的向量表示,可以将文本中出现的词汇进行求和、求平均以及加权求和等方式获取最后的结果。

求和与求平均的方式相对简单,此处不再赘述。如何进行加权求和可以针对任务的需求进行。常见的方式为TF-IDF加权的文本表示。

S e n t e n c e V e c t o r ( s ) = ∑ i n ( T F − I D F ( w o r d i ) × W o r d 2 V e c ( w o r d i ) ) 其 中 w o r d i ∈ s SentenceVector(s) = \sum_i^n (TF - IDF(word_i) \times Word2Vec(word_i)) \\其中 word_i \in s SentenceVe

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值