17、理解语言的神经网络：从电影评论预测到语义学习

最新推荐文章于 2025-11-30 09:25:59 发布

会议雕塑

最新推荐文章于 2025-11-30 09:25:59 发布

阅读量13

点赞数

CC 4.0 BY-SA版权

分类专栏：深度学习入门精要文章标签：神经网络自然语言处理词袋模型

本文链接：https://blog.youkuaiyun.com/pandas7gardener/article/details/154670772

深度学习入门精要专栏收录该内容

26 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

理解语言的神经网络：从电影评论预测到语义学习

一、捕捉输入数据中的单词相关性

词袋模型与情感预测

在处理电影评论时，我们可以利用词袋模型来预测评论的情感倾向。具体做法是，观察IMDB评论的词汇与评分之间的相关性，然后创建一个输入矩阵来表示电影评论的词汇。

独热编码

独热编码是一种常见的二进制数据编码方式。在这种编码中，我们为词汇表中的每个单词创建一个向量，向量的长度等于词汇表的大小。如果某个评论中包含某个单词，则对应位置为1，否则为0。例如，对于一个包含四个单词的词汇表 ['cat', 'the', 'dog', 'sat'] ，独热编码如下：

import numpy as np
onehots = {}
onehots['cat'] = np.array([1,0,0,0])
onehots['the'] = np.array([0,1,0,0])
onehots['dog'] = np.array([0,0,1,0])
onehots['sat'] = np.array([0,0,0,1])
sentence = ['the','cat','sat']
x = onehots[sentence[0]] + \
    onehots[sentence[1]] + \
    onehots[sentence[2]]
print("Sent Encoding:" + str(x))

输出结果为：