神经网络与文本问答技术解析
1. 上下文词嵌入模型介绍
1.1 ELMo 模型
在某些神经网络模型中,ELMo 表示可以从预训练的双向语言模型(BiLM)中获取,且其权重是固定的。获取到的 ELMo 表示会被添加到词表示中,如 $[x_k; ELMo_k^{task}]$,以此来增强词表示。在一些包含循环神经网络(RNN)的架构里,ELMo 表示会被添加到 RNN 的输出隐藏状态中加以利用。
1.2 BERT 模型
1.2.1 模型概述
双向编码器表示来自变换器(BERT)是一种上下文语言模型表示模型,它将从左到右和从右到左的方向都作为上下文进行考虑。现有的预训练语言模型主要分为基于特征和微调两类。基于特征的模型将预训练表示作为自身架构的额外特征,而微调方法则在下游任务中使用预训练语言模型的相同架构并对其参数进行微调。例如,ELMo 就是基于特征的预训练语言模型,它将预训练嵌入作为额外特征。
1.2.2 预训练任务
BERT 是一种微调语言模型,它在大规模无标签语料库上进行预训练,主要有两个任务:掩码语言模型(MLM)和下一句预测(NSP)。预训练使用了 BookCorpus(8 亿个单词)和英文维基百科(25 亿个单词)。
- MLM 任务 :随机掩盖输入句子中特定百分比的标记,并在输出层对这些标记进行预测。选择要掩盖的标记后,80%的概率将其替换为 [MASK] 标记,10%的概率替换为另一个随机标记,10%的概率保持不变。
- NSP 任务 :用于捕捉两个输入句子之间的关系。将两个输入
超级会员免费看
订阅专栏 解锁全文
1503

被折叠的 条评论
为什么被折叠?



