Bert模型浅析

本文探讨了Bert模型的发展历程,从word2vec到transformer,重点介绍了Bert的双向预训练任务和模型结构。还涵盖了模型的输入输出处理,包括数据生成、mask策略以及模型训练流程。最后,简述了Bert的相关实验结果和在自定义数据集上的应用方法。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

本文通过ppt和大家简单聊一下关于nlp模型bert的一些知识,网上很多关于bert的解读,翻来覆去都是那些论文里的翻译之类的,十个人有九个相同的东西。本文简单的摘录了一些大佬之言,仅供参考。

1、Bert简介

先来聊一下nlp领域关于预训练的一个简单的发展历程。总所周知,图像领域的imagenet预训练对于图像处理有着相当大的意义,namenlp领域是否也存在这样的一个通用模型呢?
从word2vec开始,大佬们就开始不断地拓展新的模型。word2vec相应熟悉nlp领域的人都十分清晰它的好处,用它做词嵌入可以做出比较好的文本表征。它算是神经语言模型的一种变种,也是基于句子连个词前后的关系来捕捉句子里的特征。但是它的缺点很明显,对于同义词无能为力。
接下里,带大家认识一下transformer这个网路结构,它算是2017年nlp领域一个比较大的突破,摒弃了rnn这种序列结构,直接用上了attention机制来做,在神经翻译领域取得了很大的成就。
另外,Emlo这个模型使用了两层双向lstm模型来做词表征,词嵌入不再是固定的向量,而是会根据上下文信息进行辩护啊,这样就可以解决了同义词的问题。但是从后期的一些模型出现表现来看这样的双向lstm表征能力不足。
GPT使用的是trandformer结构来做单向的下个词汇预测的一个预训练模型,而bert在此基础上介入了双向,而且预训练任务修改成了完形填空与上下句判断两个任务。这个下面会详细聊一下。
在这里插入图片描述
我们可以看一下bert模型的而一些数据,一句话概括“大力出奇迹”。

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值