使用每个单词的嵌入矩阵E乘one-hot向量得到该单词的嵌入向量(维度与特征数量相同)。
把这些嵌入向量放入神经网络,然后通过softmax分类器,它会尝试在字典范围内预测输出单词。
如果设置窗口大小,即只用固定数量的单词来预测输出单词,可以增强网络对于不同长短句子的适应性。
使用固定长度的历史窗口可以处理任意长度的句子,因为输入的维度总是确定的。
所有单词用的是同一个嵌入矩阵。
研究者发现,如果想构建一个语言模型,用目标词的前几个单词作为上下文是常见做法。
如果你的目标是学习词嵌入,那就可以用其他类型的上下文。
如前后四个单词、上一个单词或者附近的一个单词等等。