17、理解语言的神经网络:从电影评论预测到语义学习

理解语言的神经网络:从电影评论预测到语义学习

一、捕捉输入数据中的单词相关性

词袋模型与情感预测

在处理电影评论时,我们可以利用词袋模型来预测评论的情感倾向。具体做法是,观察IMDB评论的词汇与评分之间的相关性,然后创建一个输入矩阵来表示电影评论的词汇。

独热编码

独热编码是一种常见的二进制数据编码方式。在这种编码中,我们为词汇表中的每个单词创建一个向量,向量的长度等于词汇表的大小。如果某个评论中包含某个单词,则对应位置为1,否则为0。例如,对于一个包含四个单词的词汇表 ['cat', 'the', 'dog', 'sat'] ,独热编码如下:

import numpy as np
onehots = {}
onehots['cat'] = np.array([1,0,0,0])
onehots['the'] = np.array([0,1,0,0])
onehots['dog'] = np.array([0,0,1,0])
onehots['sat'] = np.array([0,0,0,1])
sentence = ['the','cat','sat']
x = onehots[sentence[0]] + \
    onehots[sentence[1]] + \
    onehots[sentence[2]]
print("Sent Encoding:" + str(x))

输出结果为:

Sent Encoding:[1 1 0 1]
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值