论文解读:知识增强的预训练模型简介

本文介绍了知识增强的预训练语言模型,起源于自然语言理解领域对通用模型的需求,Transformer的出现解决了之前的问题。BERT、GPT等模型开启了预训练热潮,后续出现了如ERNIE、CPM等结合知识图谱的模型,旨在提升模型的语义理解和鲁棒性。文章探讨了知识的分类、注入方法,并对预训练模型进行了架构分类。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

©NLP论文解读 原创•作者 | 杨健

图片

专栏系列概览

该专栏主要介绍自然语言处理领域目前比较前沿的领域—知识增强的预训练语言模型。通过解读该主题具备代表性的论文以及对应的代码,为大家揭示当前最新的发展状况。为了能够和大家更好的分享自己的收获,笔者将遵循下面几个原则。

 1、理论讲解尽量深入浅出,通过举例子或者大白话讲解论文,而非仅针对原文翻译。

2、针对论文中一些重要的术语,适时的做出解释。

3、理论和实践相结合,除了理论讲解,还会加入部分重要代码讲解。并且分享个人认为重要的一些工程技巧。

图片

知识增强的预训练模型

工欲善其事必先利其器。今天的文章主要介绍 是什么、它的背景知识以及分类。后续的文章将进一步深入,详细介绍每一类知识增强的预训练模型。

从哪里来

自从神经网络成为主流以来,自然语言理解等任务大多基于神经网络为各个下游场景单独设计模型。然而这类模型仅能够适用于单一下游任务,通用性不足。

相比自然语言理解领域,由于图像处理领域拥有大量的有标签数据,研究人员利用迁移学习的思想,在数年前就已经能训练出具备一般性图像特征的大规模预训练模型。

然而,一方面自然语言处理领域缺少足够的标注数据,另一方面循环神经网络架构也遭受梯度爆炸的困扰,使得该领域的大规模预训练模型迟迟未能出现。

Transformer的出现为解决这一问题带来了希望,一方面模型通过自注意力结构和残差链接解决了循环神经网络架构梯度爆炸的问题,从而使模型得以堆叠多层神经网络,另一方面通过引入自监督的预训练任务,也解决了标注数据不足的问题。

<
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

NLP论文解读

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值