
NLP
文章平均质量分 74
kikato2022
个人主页 kikato2022.github.io
展开
-
NLP之BERT:transformer
文章目录transformer整体模型Self-Attention传统的word2vecself-attentionself-attention如何计算self-attention的multi-headed机制Transformer多层堆叠位置信息的表达Add & Normalizetransformer整体模型transformer做了一件什么事情呢?为什么要提出transformer,RNN有什么问题?传统的RNN每一个XiX_iXi的计算都需要依赖之前的计算所得到的中间结果。原创 2022-04-29 21:28:52 · 404 阅读 · 0 评论 -
BERT从零详细解读:脱敏数据中如何使用BERT
如何在脱敏数据中使用BERT;基于此语料如何使用NSP任务;对于脱敏语料使用BERT,一般可以分为两种:第一种就是如果语料很大,完全直接从零开始基于语料,训练一个新的BERT出来使用;如果语料比较小,bert训练出来效果不会特别好,相当于会欠拟合,因为参数量很大,但是数据很少,并没有训练得特别好,它就会欠拟合。这个时候我们就可以按照词频,把脱敏数字映射到中文或者其它语言。假设我们使用中文,就映射到中文bert的词汇中,然后使用对照词汇的权重对脱敏bert做初始化,然后基于新的中文语料训练BERT.转载 2022-04-24 14:35:58 · 790 阅读 · 0 评论 -
BERT从零详细解读:如何微调BERT,提升BERT在下游任务中的效果
a)是句子对的分类任务b)是单个句子的分类任务c) 是问答任务d)是序列标注任务首先我自己最常用的就是:文本分类、序列标注和文本匹配。这四个都是比较简单的,我们来看d)序列标注,其实就是把所有的token输出,做了一个softmax,去看它属于实体中的哪一个。对于单个样本,它的一个文本分类就是使用CLS这边,第一个CLS的输出,去做一个微调,做一个二分类,或者是多分类。a)这个其实本质是一个文本匹配的一个任务,文本匹配就是把两个句子拼接起来,去判断它是否相似。左上角也是用CLS输出判断,0不相.转载 2022-04-24 13:38:08 · 5198 阅读 · 0 评论 -
BERT从零详细解读:如何做预训练 - MLM+NSP
MLM: mask language modelNSP: 去判断两个句子之间的关系BERT在预训练时使用的是大量的无标注的语料(比如随手可见的一些文本,它是没有标注的)。所以它在预训练任务设计的时候,一定是要考虑无监督来做,因为是没有标签的。对于无监督的目标函数来讲,有两组目标函数比较受到重视,第一种是 AR模型,auto regressive,自回归模型。只能考虑单侧信息,典型的就是GPT。另一种是AE模型,auto encoding,自编码模型。从损坏的输入数据中预测重建原始数据,可以使用上下转载 2022-04-24 10:59:36 · 10277 阅读 · 0 评论 -
BERT从零详细解读:BERT整体模型架构
BERT整体模型架构转载 2022-04-24 09:34:23 · 6103 阅读 · 0 评论