Self-Supervised Learning

本文分析了BERT的340M参数训练策略,涉及单字替换、NextSentencePrediction等技术。讨论了BERT在不同任务中的应用,如预训练和GPT的生成预测。关注点在于seq_to_seq模型的损坏修复和词向量的实际应用。

Self-Supervised Learning

在这里插入图片描述
Bert 的数据是 340M parameters
在这里插入图片描述在这里插入图片描述

抽象解释👆

Bert

实现参考思路读懂bert

单个字的预测

把一个字盖住:
1、把一个字替换成特殊字符(MASK)。
2、替换成随机的一个字,进行训练。
在这里插入图片描述

next sentence prediction

在这里插入图片描述
通过变换两个连起来的句子的顺序,或者加符号来训练。
在这里插入图片描述
在这里插入图片描述

case1用做填空的bert(训练好的模型)做pre-train(下面的case2 3 4 也是用填空获得的bert来做的),用来训练新的分类。
在这里插入图片描述
case2 也是做初始化的pre-train的问题
在这里插入图片描述在这里插入图片描述

case3是给两个句子 判断两个句子之间的关系(矛盾、蕴含、对立)
在这里插入图片描述
给两个文段D、Q通过训练得到两个整数s、e答案就是原文D中第s到第e个词组。在这里插入图片描述
上图中 通过
1、橙色的向量和黄色的内积+softmax获得的是answer的开始位置。
2、蓝色的向量和黄色的内积+softmax获得的是answer的结束的位置。
其中黄色的向量是bert中pre-train获得的向量,而橙色和蓝色是随机初始化后得到的向量。
所以这种训练模式需要一定的训练数据来完成对于橙色和蓝色的向量的训练。在这里插入图片描述
bert胚胎学👆可以进行详细研究。
回归我们需要的研究方向👇,seq_to_seq方向
在这里插入图片描述
这里要做到的是把w1,w2·····损坏(mass)之后,也要输出对的w5,w6·····值。
在这里插入图片描述
👆就是各种损坏(mass)的方法。

以‘果’为例子感受bert的词向量的应用状态

在这里插入图片描述
在这里插入图片描述
word embedding通过被masked单词的上下文就可以进行预测。在这里插入图片描述
把bert的英文QA问题训练好之后,放到中文去(pre-train)模型,居然有78的正确率,bert的预训练模型非常神奇。

bert其实一直做的是填空题

GPT模型

在这里插入图片描述
像是transformer的decoder
在这里插入图片描述
GPT做的东西是 给上一段文字,输出预测下一段,👆这种例子,居然可以翻译cheese!这就是GPT做的大模型的预测问题。
在这里插入图片描述

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值