17、理解语言的神经网络：从电影评论预测到填空任务的探索

最新推荐文章于 2025-11-24 21:26:24 发布

sql99

最新推荐文章于 2025-11-24 21:26:24 发布

阅读量36

点赞数

CC 4.0 BY-SA版权

分类专栏：深度学习入门：从零开始文章标签：神经网络语言理解电影评论预测

本文链接：https://blog.youkuaiyun.com/sql99/article/details/154596518

深度学习入门：从零开始专栏收录该内容

26 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

理解语言的神经网络：从电影评论预测到填空任务的探索

1. 捕捉输入数据中的单词关联

在处理文本数据时，我们常常需要将文本信息转化为计算机能够理解的数值形式。词袋模型（Bag of words）是一种简单有效的方法，它基于评论的词汇表来预测情感倾向。

具体来说，我们通过观察IMDB评论的词汇与评分之间的相关性，创建一个输入矩阵来表示电影评论的词汇。这个矩阵的每一行对应一个电影评论，每一列表示评论中是否包含词汇表中的某个特定单词。为评论创建向量时，我们先计算评论的词汇，然后在对应列中填入1，其他位置填0。如果词汇表有2000个单词，那么每个向量就有2000维。

这种存储形式被称为独热编码（one - hot encoding），是编码二进制数据的最常见格式。以下是一个简单的示例代码：

import numpy as np
onehots = {}
onehots['cat'] = np.array([1,0,0,0])
onehots['the'] = np.array([0,1,0,0])
onehots['dog'] = np.array([0,0,1,0])
onehots['sat'] = np.array([0,0,0,1])
sentence = ['the','cat','sat']
x = onehots[sentence[0]] + onehots[sentence[1]] + onehots[sentence[2]]
print("Sent Encoding:" + str(x))

当创建多个单词的嵌入时，如果单词多次出现，我们有多种选择。例如，