14、自然语言处理中的词向量表示与规则技术

自然语言处理中的词向量表示与规则技术

1. 文档与词的向量表示

在自然语言处理里,我们可以把电影评论语料库表示成一个矩阵,每篇文档都是一个N维向量,这里的N是我们要使用的最大词汇量。以TF - IDF向量为例,不同文档中相同单词的TF - IDF值存在明显差异,这在后续的分类处理中会发挥作用。

此前我们主要关注文档的表示,而词本身的表示也很关键。文档向量中的词只是代表其频率的数字,没有包含词本身的含义信息。词的含义会影响文档间的相似度,因此我们需要对词的含义进行表示,这在NLP文献中常被称为词嵌入。

2. Word2Vec

Word2Vec是Google在2013年发布的用于将词表示为向量的流行库。其基本思想是语料库中的每个词都由一个基于该词出现的所有上下文(附近的词)计算得到的单一向量表示。其背后的直觉是,含义相似的词会出现在相似的上下文中,正如语言学家J. R. Firth所说:“观其伴,知其词”。

2.1 独热编码

为了更好地理解Word2Vec,我们先从独热编码开始。独热编码中,词汇表中的每个词由一个向量表示,该向量在特定位置为1,其余位置为0。向量的长度等于词汇表的大小。独热编码的第一步是整数编码,即给语料库中的每个词分配一个特定的整数。以下是使用scikit - learn库进行整数编码和独热编码的代码:

from numpy import array
from numpy import argmax
from sklearn.preprocessing import LabelEncoder
from sklearn.
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值