以网易严选为例，人工智能实战系列之预训练语言模型

文宇肃然

于 2020-12-21 08:50:03 发布

阅读量1.2k

点赞数

CC 4.0 BY-SA版权

分类专栏：人工智能AI实战系列代码全解析

本文链接：https://blog.youkuaiyun.com/wenyusuran/article/details/108387985

人工智能AI实战系列代码全解析专栏收录该内容

64 篇文章 ¥29.90 ¥99.00

订阅专栏

本文介绍了预训练语言模型如BERT在NLP任务中的应用，包括分类、文本匹配、序列标注和生成式任务。通过对比ELMO、GPT和BERT，讨论了它们的模型结构和使用方式，并展示了在网易严选业务中的具体实践效果，指出在不同任务中选择合适的使用模式至关重要。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

导读：随着Bert的发布，预训练 ( pre-train ) 成为NLP领域最为热门的方向之一，大规模的无监督语料加上少量有标注的语料成为了NLP模型的标配。本文将介绍几种常见的语言模型的基本原理和使用方式，以及语言模型在网易严选NLP业务上的实践，包括分类、文本匹配、序列标注、文本生成等。

01 前言

文本的表征经历了漫长的发展历程，从最简单经典的bow词袋模型、以LDA为代表的主题模型、以word2vec为代表的稠密向量模型、到现在以Bert为代表的通用语言模型。词语是文本细粒度的表达，早期的预训练词向量虽简单易用，但无法解决一词多义的问题。近年来，基于大规模上下文语料，训练的通用语言模型，可以产出更细致的语义表征向量，相同的词在不同的语境中能抽取出不同的语义向量。

在通用常见的NLP任务中，数据标注是不能缺少的重要环节。数据的量级及质量会直接影响任务的效果。现实条件下，数据标注的成本往往很高，但好在我们拥有大量的无标注的语料。因此，基于无监督的海量语料训练一个通用的语言模型，然后针对不同的NLP任务，进行少量数据标注后，再对模型进行微调成为了发展的趋势。