参考链接
https://www.cs.ubc.ca/~amuham01/LING530/papers/radford2018improving.pdf
https://github.com/openai/finetune-transformer-lm
论文模型概述
- 论文模型训练过程包括两步:
- 第一步: 在大预料库训练高容量的语言模型;
- 第二步: 要特殊任务的有标签的数据集上微调预训练的语言模型
第一步:无监督预训练
- 使用语言模型最大化下面的式子 L 1 ( U ) = ∑ i l o g P ( u i ∣ u i − k , … , u i − 1 ; θ ) L_1 (U)=∑_ilogP(u_i |u_{i-k},…,u_{i-1};θ) L1(U)=i∑logP(ui∣ui−k,…,ui−1;θ)其中 k k k是上下文窗口大小, θ θ θ是语言模型参数,我们使用一个神经网络来模拟条件概率 P P P
- 在论文中,使用一个多层的transformer decoder来作为语言模型,这是transformer的一个变体。将transformer decoder中Encoder-Decoder Attention层去掉作为模型的主体,然后将decoder的输出经过一个softmax层,,来产生目标词的输出分布: h 0 = U W e + W p h_0=UW_e+W_p h0=