理解语言的神经网络:从电影评论预测到语义学习
一、捕捉输入数据中的单词相关性
词袋模型与情感预测
在处理电影评论时,我们可以利用词袋模型来预测评论的情感倾向。具体做法是,观察IMDB评论的词汇与评分之间的相关性,然后创建一个输入矩阵来表示电影评论的词汇。
独热编码
独热编码是一种常见的二进制数据编码方式。在这种编码中,我们为词汇表中的每个单词创建一个向量,向量的长度等于词汇表的大小。如果某个评论中包含某个单词,则对应位置为1,否则为0。例如,对于一个包含四个单词的词汇表 ['cat', 'the', 'dog', 'sat'] ,独热编码如下:
import numpy as np
onehots = {}
onehots['cat'] = np.array([1,0,0,0])
onehots['the'] = np.array([0,1,0,0])
onehots['dog'] = np.array([0,0,1,0])
onehots['sat'] = np.array([0,0,0,1])
sentence = ['the','cat','sat']
x = onehots[sentence[0]] + \
onehots[sentence[1]] + \
onehots[sentence[2]]
print("Sent Encoding:" + str(x))
输出结果为:
Sent Encoding:[1 1 0 1]
超级会员免费看
订阅专栏 解锁全文
7万+

被折叠的 条评论
为什么被折叠?



