1.问题:
统计语言建模的一个目标是学习语言中单词序列的联合概率函数。这在本质上是困难的,因为维数的诅咒:测试模型的word序列很可能与训练中看到的所有单词序列不同。
我们建议通过学习一个分布式的词表示来克服维数的诅咒,它允许每个训练句子向模型告知一个指数数量的语义相邻句子
N-gram它不考虑1到2个单词以外的上下文,1秒内它不考虑单词之间的“相似性”。
2.介绍
使用这些思想的实现依赖于共享参数的多层神经网络。本文的另一个贡献是关于如何将如此庞大的神经网络(包含数百万个参数)训练成非常庞大的数据集(包含数百万或数千万个示例)。
用分布式表示对抗维数的诅咒:
1. 为在词表中的每一个词分配一个分布式的词特征向量
2. 词序列中出现的词的特征向量表示的词序列的联合概率函数
3.学习词特征向量和概率函数的参数
特征向量表示单词的不同方面:每个单词都与向量空间中的一个点相关联。特征的数量(如实验中m=30、60或100)远远小于词汇量的大小(如17000)。概率函数表示为在给定前一个词的情况下下一个词的条件概率的乘积(例如,在实验中使用多层神经网络来预测给定前一个词的下一个词)。该函数具有可迭代调整的参数,以最大化训练数据的对数似然或正则化准则,例如,通过添加权重衰减惩罚。2学习与每个单词相关联的特征向量,但可以使用语义特征的先验知识对其进行初始化。
使用神经网络来模拟高维离散分布的想法已经被发现对学习z1···Zn的联合概率是有用的
3.模型:
训练集是一个词序列