17、理解语言的神经网络:从电影评论预测到填空任务的探索

理解语言的神经网络:从电影评论预测到填空任务的探索

1. 捕捉输入数据中的单词关联

在处理文本数据时,我们常常需要将文本信息转化为计算机能够理解的数值形式。词袋模型(Bag of words)是一种简单有效的方法,它基于评论的词汇表来预测情感倾向。

具体来说,我们通过观察IMDB评论的词汇与评分之间的相关性,创建一个输入矩阵来表示电影评论的词汇。这个矩阵的每一行对应一个电影评论,每一列表示评论中是否包含词汇表中的某个特定单词。为评论创建向量时,我们先计算评论的词汇,然后在对应列中填入1,其他位置填0。如果词汇表有2000个单词,那么每个向量就有2000维。

这种存储形式被称为独热编码(one - hot encoding),是编码二进制数据的最常见格式。以下是一个简单的示例代码:

import numpy as np
onehots = {}
onehots['cat'] = np.array([1,0,0,0])
onehots['the'] = np.array([0,1,0,0])
onehots['dog'] = np.array([0,0,1,0])
onehots['sat'] = np.array([0,0,0,1])
sentence = ['the','cat','sat']
x = onehots[sentence[0]] + onehots[sentence[1]] + onehots[sentence[2]]
print("Sent Encoding:" + str(x))

当创建多个单词的嵌入时,如果单词多次出现,我们有多种选择。例如,

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值