总共有六个词(行),每个词用d=5维的向量来表示。每个词都有两个向量表示:u和v。
例如,对于第4个词,当它作为中心词时,其周围词的概率为
,做softmax归一之后便成了概率,这个概率应该越接近实际情况越好。
SGD:只对一个样本进行梯度下降
小批量梯度下降更加常用。
- 没有SGD那么noisy,因为对整个minibatch求了平均
- 并行计算,速度提升。
如果用SGD的方法,每次只会更新2m+1个单词的词向量。这样,更新的梯度是非常稀疏的。
总共有六个词(行),每个词用d=5维的向量来表示。每个词都有两个向量表示:u和v。
例如,对于第4个词,当它作为中心词时,其周围词的概率为
,做softmax归一之后便成了概率,这个概率应该越接近实际情况越好。
SGD:只对一个样本进行梯度下降
小批量梯度下降更加常用。
- 没有SGD那么noisy,因为对整个minibatch求了平均
- 并行计算,速度提升。
如果用SGD的方法,每次只会更新2m+1个单词的词向量。这样,更新的梯度是非常稀疏的。