自然语言处理中的深度学习技术:预训练与模型应用
1. 变压器模型架构
在自然语言处理中,变压器(Transformer)模型是一种强大的工具。对于词性标注(POS tagging)任务,变压器模型的输入是位置 t 的词嵌入与对应位置 t 的位置嵌入之和。以图中所示的句子为例,词嵌入和位置嵌入相加后,作为三层变压器的输入。变压器会为每个词生成一个向量,就像基于循环神经网络(RNN)的词性标注一样。每个向量会被输入到最终输出层和 softmax 层,以生成标签上的概率分布。
这里介绍的其实只是变压器模型的一半,即变压器编码器(Transformer encoder),它对文本分类任务很有用。完整的变压器架构最初是为机器翻译设计的序列到序列模型,除了编码器,还包括变压器解码器(Transformer decoder)。编码器和解码器几乎相同,但解码器使用了一种自注意力机制,每个词只能关注它之前的词,因为文本是从左到右生成的。此外,解码器的每个变压器层还有一个注意力模块,用于关注变压器编码器的输出。
2. 预训练与迁移学习
构建强大的自然语言处理(NLP)模型时,获取足够的数据是一项挑战。在计算机视觉领域,通过收集大量图像并手动标注来解决这个问题。而在自然语言处理中,处理未标注的文本更为常见,这部分是因为标注难度大,例如为句子标注词性标签或解析树需要大量训练;另一部分是因为文本资源丰富,互联网每天新增超过 1000 亿个单词的文本。
预训练(Pretraining)是一种迁移学习的形式,我们使用大量共享的通用领域语言数据来训练 NLP 模型的初始版本,然后使用少量特定领域的数据(可能包括一些标注数据)来细化模型。细化后的模型可以学习特定领域的词
超级会员免费看
订阅专栏 解锁全文
797

被折叠的 条评论
为什么被折叠?



