从Word Embedding到Bert模型
一、Word Embedding
注意:
1、word embedding相当于预训练,将onehot层到embedding层的参数用矩阵Q初始化了。
2、使用word embedding有两种做法,一个是Frozen,另一种是Fine-Tuning。

1.1 神经网络语言模型(NNLM)

学习任务是输入某个句中单词 W t = “ B e r t ” \ W_t= “Bert” Wt=“Bert” 前面句子的t-1个单词,要求网络正确预测单词Bert,即最大化:
P ( W t = “ B e r t ” ∣ W 1 , W 2 , . . . W ( t − 1 ) ; θ ) \ P(W_t =“Bert”|W_1,W_2,...W_{(t-1)}; \theta )

本文介绍了从WordEmbedding到BERT的演变过程,包括NNLM、Word2Vec、ELMO、GPT和BERT。重点讨论了预训练和Fine-tuning阶段,如ELMO的上下文调整、GPT的Transformer应用以及BERT的双向预训练。预训练模型如BERT引入了MSKEDLM和NextSentencePrediction等创新,提升了模型在NLP任务上的表现。
最低0.47元/天 解锁文章
4万+

被折叠的 条评论
为什么被折叠?



