理解语言的神经网络:从电影评论预测到填空任务的探索
1. 捕捉输入数据中的单词关联
在处理文本数据时,我们常常需要将文本信息转化为计算机能够理解的数值形式。词袋模型(Bag of words)是一种简单有效的方法,它基于评论的词汇表来预测情感倾向。
具体来说,我们通过观察IMDB评论的词汇与评分之间的相关性,创建一个输入矩阵来表示电影评论的词汇。这个矩阵的每一行对应一个电影评论,每一列表示评论中是否包含词汇表中的某个特定单词。为评论创建向量时,我们先计算评论的词汇,然后在对应列中填入1,其他位置填0。如果词汇表有2000个单词,那么每个向量就有2000维。
这种存储形式被称为独热编码(one - hot encoding),是编码二进制数据的最常见格式。以下是一个简单的示例代码:
import numpy as np
onehots = {}
onehots['cat'] = np.array([1,0,0,0])
onehots['the'] = np.array([0,1,0,0])
onehots['dog'] = np.array([0,0,1,0])
onehots['sat'] = np.array([0,0,0,1])
sentence = ['the','cat','sat']
x = onehots[sentence[0]] + onehots[sentence[1]] + onehots[sentence[2]]
print("Sent Encoding:" + str(x))
当创建多个单词的嵌入时,如果单词多次出现,我们有多种选择。例如,
超级会员免费看
订阅专栏 解锁全文
13

被折叠的 条评论
为什么被折叠?



