
深度学习(NLP)
文章平均质量分 91
1
不负韶华ღ
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
CANINE: Pre-training an Efficient Tokenization-Free Encoder for Language Representation(2021-3-11)
管道化的NLP系统大部分被端到端的神经模型所取代,然而,几乎所有常用的模型都需要一个显示的分词步骤。尽管最近基于数据衍生的子词词典的分词器比手工设计的分词器要稳固,但是这些分词器并不适合所有的语言,而且使用固定的词汇会限制模型的能力。基于这些问题,提出了,神经编码器,没有显式的进行分词和也没有词汇表,在与训练中直接处理字符序列以及有选择的使用子词作为软感应偏置(soft inductive bias)。原创 2022-10-15 22:55:28 · 378 阅读 · 0 评论 -
ERNIE 3.0: Large-scale Knowledge Enhanced Pre-training for Language Understanding and ...(2021-7-5)
为了解决单一自回归框架带来的问题,并探索大规模参数的知识增强预训练模型的性能,我们提出了一个名为ERNIE 3.0的统一框架,通过融合自回归网络和自编码网络,在由纯文本和大规模知识图谱组成的4TB语料库上训练大规模知识增强模型。提出的ERNIE 3.0可以通过zero-shot学习、few-shot学习或微调来处理自然语言理解任务和自然语言生成任务。此外,提议的框架支持在任何时候引入各种定制任务。这些任务共享相同的编码网络,并通过多任务学习进行训练。原创 2022-10-11 10:49:38 · 713 阅读 · 0 评论 -
RoFormer: Enhanced Transformer with Rotary Position Embedding(2021-4-20)
位置编码最近的Transformer模型中显的非常有效,它为位于序列不同位置的元素之间的依赖关系建模提供了有价值的监督。通过研究了不同集成位置编码信息的方法在基于transformer语言模型的学习过程的作用,提出了一种新的方法–旋转位置编码(Rotary Position Embedding,RoPE)。具体而言,RoPE将绝对位置编码在一个旋转矩阵中,与此同时,在self-attention公式中包含了显式的相对位置依赖。尤其是,RoPE可以让有价值的属性包含在相对位置编码中,比如序列长度的灵活性、随着原创 2022-10-13 22:17:15 · 1805 阅读 · 1 评论 -
I-BERT: Integer-only BERT Quantization(2021-1-5)
基于Transformer的模型,例如BERT、RoBERTa,在许多的自然语言处理任务中获得最优的结果。由于内存使用、推断延迟、能源损耗,以至于无法有效率的在边缘甚至数据中心进行推断。尽管量化是一个可行的解决方案,但是之前的一些基于Transformer的量化工作在推理阶段还是使用了浮点运算,不能有效地利用整数逻辑单元,比如最近的Turing Tensor Cores,或者传统的仅支持整型的ARM处理器。原创 2022-10-12 22:21:16 · 1041 阅读 · 0 评论 -
ERNIE-Doc: A Retrospective Long-Document Modeling Transformer(2020-12-31)
经典的Transformer在处理数据时,会将文本数据按照固定长度进行截断,这个看起来比较”武断”的操作会造成上下文碎片化以及无法建模更长的序列依赖关系。基于此项考虑,ERNIE-Doc提出了一种文档层级的预训练语言模型方法:ERNIE-Doc在训练某一个Segment时,允许该segment能够获得整个Doc的信息。S1,S2,S3,在编码segment S2时,经典的Transformer依赖的只是S2P(y∣S2)原创 2022-10-11 14:32:34 · 505 阅读 · 0 评论 -
Informer: Beyond Efficient Transformer for Long Sequence Time-Series Forecasting(2020-12-14)
对于长序列时间预测一直是研究的热点,随着预测序列长度增加,预测难度越来越高,LSTF需要模型提高预测能力,本文设计了一个高效的基于 Transformer 的 LSTF 模型,名为 Informer。informer模型成功地提高LSTF问题的预测能力,验证了类Transformer模型的潜在价值;原创 2022-10-10 21:10:45 · 604 阅读 · 0 评论 -
ERNIE-Gram: Pre-Training with Explicitly N-Gram Masked Language Modeling for Natural ...(2020-10-23)
在经典预训练模型BERT中,主要是通过Masked Language Modeling(MLM)预训练任务学习语言知识。在BERT中MLM会随机Masking一些位置的token,然后让模型去预测这些token。原创 2022-10-11 13:45:05 · 438 阅读 · 0 评论 -
BORT:Optimal Subarchitecture Extraction For BERT(2020-10-20)
通过应用最新的,提取了BERT体系结构参数的最优子集。这个最优子集(称为BORT)比原来的模型小,其中网络结构大小为原来BERT-large 结构大小的15%,有效大小(没有计算嵌入层)为5.5%。BORT预训练了288个GPU小时,这是预训练性能最高的BERT参数化结构变体RoBERTa-large所需时间的1.2% ,是在相同硬件上训练BERT-large所需GPU小时的世界纪录的33%左右。原创 2022-10-15 13:33:15 · 497 阅读 · 0 评论 -
Performer:Rethinking Attention with Performers(2020-9-30)
基于Transformer模型在众多领域已取得卓越成果,包括自然语言、图像甚至是音乐。然而,Transformer架构一直以来为人所诟病的是其注意力模块的低效,即长度二次依赖限制问题。随着输入序列长度的增加,注意力模块的问题也越来越突出,算力和内存消耗是输入序列长度的平方。原创 2022-10-08 09:58:15 · 1783 阅读 · 0 评论 -
ConvBERT: Improving BERT with Span-based Dynamic Convolution(2020-8-6)
像BERT及其变种这样的经过预训练的语言模型,最近在各种自然语言理解任务中取得了令人印象深刻的性能。但是,BERT严重依赖于全局自注意力模块,因此会需要较大的内存占用和计算成本。尽管其所有attention head作用于整个输入序列,以从全局角度生成attention map,但我们观察到有些head只需要学习本地依赖关系,这意味着存在计算冗余。因此,我们提出了一种新颖的基于跨度的动态卷积,以取代这些self-attention head来直接对局部依赖性进行建模。原创 2022-10-11 21:27:16 · 478 阅读 · 0 评论 -
Big Bird: Transformers for Longer Sequences(2020-7-28)
基于Transformers 的模型,例如BERT,在各种自然语言处理(NLP)任务中都取得了巨大的成功,因此成为现代NLP研究的主体。它们的多功能性和鲁棒性是被广泛的主要原因。transformer的关键创新是引入了一种self-attention机制,该机制可以针对输入序列的每个token进行并行评估,从而消除了循环神经网络(如LSTM)中的顺序依赖性。这种并行性使Transformers能够充分利用现代SIMD硬件加速器(如GPU/TPU)的全部功能,从而有助于在规模空前的数据集上训练NLP模型。原创 2022-10-11 09:05:45 · 506 阅读 · 0 评论 -
SqueezeBERT: What can computer vision teach NLP about efficient neural networks?(2020-6-19)
人类每天要读写数千亿条信息。此外,由于大型数据集、大型计算系统和更好的神经网络模型的可用性,自然语言处理(NLP)技术在理解、校对和组织这些消息方面取得了重大进展。因此,在无数的应用程序中部署NLP以帮助网络用户、社交网络和企业是一个重要的机会。特别的,智能手机和其他移动设备是大规模部署NLP模型的关键平台。然而,如今的高精度NLP神经网络模型,如BERT和RoBERTa,计算成本极高,在Pixel 3智能手机上,基于BERT的文本片段分类需要1.7秒。在这项工作中,观察到。原创 2022-10-14 09:13:57 · 414 阅读 · 0 评论 -
Funnel-Transformer: Filtering out Sequential Redundancy for Efficient Language Processing(2020-6-5)
Self-Attention 在机器学习和 NLP 领域取得了不错的进展,而且更大的模型、更长的预训练时间效果会更好。但是预训练太昂贵,即便只是精调,比起传统的 NLP 模型依然需要大量资源。这就限制了在更多领域的应用。。而另外一种思路是设计新的架构,该架构不仅具备低 资源/表现 比,同时至少在某些领域能像 Transformer 一样具有伸缩性(即如果增大模型,效果会相应变好)。原创 2022-10-12 08:55:58 · 233 阅读 · 0 评论 -
GPT 3.0:Language Models are Few-Shot Learners(2020-5-28)
迁移学习是一种在自然语言处理中强大的技术,模型首先要针对数据丰富的任务进行预训练,然后再针对下游任务进行微调。,并在数十种语言理解任务研究比较了预训练目标,架构,未标记的数据集,迁移方法和其他因素。结合实验所得以及 C4 数据集,在许多基准上获得了最新的结果,这些基准涵盖了摘要,问题回答,文本分类等等。GPT-3是具有1750亿参数的自回归语言模型,这比以前的任何非稀疏语言模型大10倍,并在少样本学习的设置下测试其性能。原创 2022-10-12 12:52:58 · 1336 阅读 · 0 评论 -
MPNet: Masked and Permuted Pre-training for Language Understanding(2020-4-20)
BERT采用掩模语言建模(MLM)进行预训练,是最成功的预训练模型之一。由于BERT忽略了预测的 token 之间的依赖关系,XLNet引入了排列语言建模(PLM)进行预训练,以解决这个问题。然而,XLNet并没有利用一个句子的全部位置信息,因此在预训练和微调之间存在位置差异。MPNet,一种新的预训练方法,既继承了BERT和XLNet的优点,又避免了它们的局限性。原创 2022-10-14 19:17:15 · 940 阅读 · 0 评论 -
Longformer: The Long-Document Transformer(2020-4-10)
目前基于Transformer的预训练模型在各项NLP任务纷纷取得更好的效果,这些成功的部分原因在于Self-Attention机制,它运行模型能够快速便捷地从整个文本序列中捕获重要信息。然而传统的Self-Attention机制的时空复杂度与文本的序列长度呈平方的关系,这在很大程度上限制了模型的输入不能太长,因此需要将过长的文档进行截断传入模型进行处理,例如BERT中能够接受的最大序列长度为512。原创 2022-10-08 09:13:39 · 475 阅读 · 0 评论 -
DynaBERT: Dynamic BERT with Adaptive Width and Depth(2020-4-8)
预训练模型,如BERT,在自然语言处理任务中的强大之处是毫无疑问,但是由于模型参数量较多、模型过大等问题,在部署方面对设备的运算速度和内存大小都有着极高的要求。因此,面对实际产业应用时,比如将模型部署到手机上时,就需要对模型进行瘦身压缩。近年的模型压缩方式基本上都是将大型的BERT网络压缩到一个固定的小尺寸网络。而实际工作中,不同的任务对推理速度和精度的要求不同,有的任务可能需要四层的压缩网络而有的任务会需要六层的压缩网络。原创 2022-10-24 07:31:33 · 384 阅读 · 0 评论 -
MobileBERT: a Compact Task-Agnostic BERT for Resource-Limited Devices(2020-4-6)
近年来,自然语言处理(NLP)通过使用具有数亿个参数的巨大预训练模型取得了巨大的成功。然而,这些模型受到沉重的模型尺寸和高延迟的影响,因此无法部署到资源有限的移动设备上。因此这里提出了MobileBERT来压缩和加速流行的BERT模型。与原始的BERT一样,MobileBERT是任务不可知论的,也就是说,它可以通过简单的微调通用地应用于各种下游NLP任务。基本上,MobileBERT是BERTLARGE的精简版,同时配备了瓶颈结构和精心设计的在自注意和前馈网络之间的平衡。原创 2022-10-14 13:26:11 · 597 阅读 · 0 评论 -
ELECTRA:Pre-training Text Encoders as Discriminators Rather Than Generators(2020-3-23)
ELECTRA提出了一个新的预训练任务Replaced Token Detection(RTD),它的目标是学习区分输入的词。这个方法不采用mask,而是通过使用生成网络来生成一些合理替换字符来达到破坏输入的目的。然后,训练一个判别器模型,该模型可以预测当前字符是否被语言模型替换过。判别任务的一个好处是模型从输入的所有词中学习,而不是MLM中那样仅使用掩盖的词,因此计算更加有效。ELECTRA模型结构类似于GAN,包括两个神经网络:一个生成器G和一个判别器D,两者都采用形如Transformer的。....原创 2022-08-04 11:21:38 · 578 阅读 · 0 评论 -
REALM: Retrieval-Augmented Language Model Pre-Training(2020-2-10)
预训练语言模型能够捕捉非常多的知识,对于NLP任务特别是QA任务来说非常重要。然而,知识被隐式的存储在神经网络的参数中,需要更大的网络来覆盖更多的因素。为了以一个模块化或者可翻译的方式来捕捉知识,使用了一个延迟知识检索的预训练增强语言模型在预训练、微调以及推断期间允许模型在大的语料库中(比如Wikipedia)检索文档。首先,先展示如何以无监督方式训练一个知识检索器,使用掩码语言模型(MLM)来作为学习信号,然后通过有几百万文档的训练步骤进行后向传播。原创 2022-10-13 12:06:01 · 1253 阅读 · 1 评论 -
Reformer: The Efficient Transformer(2020-1-13)
现如今NLP领域的预训练模型实在是太大了,从最开始的显存装不下,到内存装不下,再到如今的硬盘装不下,让多少人望而却步,大模型就非得这么耗存储吗?有没有优化手段呢?针对长序列的Transformer训练问题,Reformer给出了一种存储极致压缩的方案。使用Axial Positional Embedding来减小位置编码矩阵提出了基于局部敏感性哈希算法(Locality Sensitive Hashing, LSH)的self-attention机制。原创 2022-10-10 12:22:40 · 674 阅读 · 0 评论 -
BART: Denoising Sequence-to-Sequence Pre-training for Natural Language Generation,Tra...(2019-10-29)
BART是一个用来预训练seq-to-seq模型的去噪自编码器。它通过在输入序列中加入随机的噪声函数,并利用seq2seq结构从损坏的文本中重构原始文本来训练模型。BART运用了基于Transformer的机器翻译结构,可以看作是BERT(encoder结构)和GPT(decoder结构)的结合体。原创 2022-10-08 14:54:46 · 375 阅读 · 0 评论 -
T5: Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer(2019-10-23)
T5提出一个统一的模型框架,将各种NLP任务都视为Text-to-Text任务,也就是输入为Text,输出也为Text的任务。由此可以方便地评估在阅读理解、摘要生成、文本分类等一系列NLP任务上,不同的模型结构,预训练目标函数,无标签数据集等的影响。对于模型的输入,比如英德翻译任务,只需将训练数据集的输入部分前加上translateEnglishtoGerman即可。假设需要翻译Thatisgood,那么先转换成translateEnglishtoGerman语言模型式Mask法。......原创 2022-08-02 12:52:49 · 1159 阅读 · 0 评论 -
DistilBERT, a distilled version of BERT: smaller, faster, cheaper and lighter(2019-10-2)
NLP预训练模型随着近几年的发展,参数量越来越大,受限于算力,在实际落地上线带来了困难,针对最近最为流行的BERT预训练模型,提出了DistilBERT,在保留97%的性能的前提下,模型大小下降40%,inference运算速度快了60%。为了利用大模型在预训练过程中学习到的归纳偏差,引入了结合语言建模、蒸馏和余弦距离损失的三重损失。原创 2022-10-08 18:02:41 · 344 阅读 · 0 评论 -
ALBERT:A Lite BERT for Self-supervised Learning of Language Representations(2019-9-26)
ALBERT相当于是BERT的一个轻量版,ALBERT的配置类似于BERT-large,但参数量仅为后者的1/18,训练速度却是后者的1.7倍。ALBERT主要对BERT做了3点改进,缩小了整体的参数量,加快了训练速度,增加了模型效果。第一个改进是对嵌入参数化进行因式分解。大的词汇嵌入矩阵分解为两个小的矩阵,将隐藏层的大小与嵌入层的分离开。这种分离使得隐藏层的增加更加容易,同时不显著增加词汇嵌入的参数量。跨层参数共享。这一技术可以避免参数量随着网络深度的增加而增加。第三个改进是。...原创 2022-07-29 09:02:04 · 463 阅读 · 0 评论 -
TinyBERT: Distilling BERT for Natural Language Understanding(2019-9-23)
预训练模型的提出,比如 BERT,显著的提升了很多自然语言处理任务的表现,它的强大是毫无疑问的。但是他们普遍存在参数过多、模型庞大、推理时间过长、计算昂贵等问题,因此很难落地到实际的产业应用中。TinyBERT是由华中科技大学和华为诺亚方舟实验室联合提出的一种针对transformer-based模型的知识蒸馏方法,以BERT为例对大型预训练模型进行研究。四层结构的TinyBERT4在 GLUE benchmark 上可以达到BERTbase。原创 2022-10-24 07:52:25 · 763 阅读 · 0 评论 -
K-BERT: Enabling Language Representation with Knowledge Graph(2019-9-17)
当前的预训练模型(比如BERT、GPT等)往往在大规模的语料上进行预训练,学习丰富的语言知识,然后在下游的特定任务上进行微调。但这些模型基本都没有使用知识图谱(KG)这种结构化的知识,而KG本身能提供大量准确的知识信息,通过向预训练语言模型中引入这些外部知识可以帮助模型理解语言知识。基于这样的考虑,作者提出了一种向预训练模型中引入知识的方式,即KBERT,其引入知识的时机是在fine tune阶段。原创 2022-10-08 10:22:46 · 347 阅读 · 1 评论 -
NEZHA: Neural Contextualized Representation for Chinese Language Understanding(2019-8-31)
NEZHA整体上是基于BERT的改进。在NEZHA中使用的是函数式相对位置编码,而在原始的Transformer和BERT中每个词使用的是绝对位置编码。位置编码信息直接加到词嵌入作为Transformer的输入。NEZHA使用函数式相对位置编码,通过预定义函数的方式在自注意力层编码相对位置。实验结果表明,该方法是一种有效的位置编码方案,并在实验中取得了一致的效果。此外,NEZHA在训练过程中使用了三种已被证明是有效的预训练BERT技术,即全词覆盖,混合精度训练和LAMB优化。原创 2022-10-13 07:38:55 · 368 阅读 · 0 评论 -
ERNIE 2.0: A Continual Pre-Training Framework for Language Understanding(2019-7-29)
通常,模型的预训练通常基于单词和句子的共现来训练模型。实际上,除同现外,还有其他词汇,句法和语义信息值得在训练语料库中进行检查。例如,诸如个人名称,位置名称和组织名称之类的命名实体可能包含概念性信息。诸如句子顺序和句子接近度之类的信息使模型能够学习结构感知表示。文档级别的语义相似性或句子之间的语篇关系使模型可以学习语义感知表示。原创 2022-10-11 17:42:56 · 539 阅读 · 0 评论 -
RoBERTa:A Robustly Optimized BERT Pretraining Approach(2019-7-26)
RoBERTa可以看作是BERT的改进版,从模型结构上讲,相比BERT,RoBERTa基本没有什么创新,它更像是关于BERT在预训练方面进一步的探索。其改进了BERT很多的预训练策略,其结果显示,原始BERT可能训练不足,并没有充分地学习到训练数据中的语言知识。更大的bacthsize。RoBERTa在训练过程中使用了更大的bacthsize。尝试过从256到8000不等的bacthsize。更多的训练数据。RoBERTa采用了160G的训练文本,而BERT仅采用了16G的训练文本。更长的训练步骤。...原创 2022-07-28 19:00:29 · 1074 阅读 · 0 评论 -
SpanBERT: Improving Pre-training by Representing and Predicting Spans(2019-7-24)
相比于BERT,SpanBERT主要是在预训练阶段进行了调整,如图1所示,具体包含以下几部分:随机地Masking一段连续的token增加了一项新的预训练任务:Span boundary Objective (SBO)去掉了NSP任务图1 SpanBERT改进点汇总图在接下来的内容中,我们将对这些预训练任务进行详细探讨,特别是前两个改进点。但是在正式讨论之前,我们先来回顾一下经典的BERT模型中的预训练任务。原创 2022-10-08 11:21:29 · 194 阅读 · 0 评论 -
XLNet:Generalized Autoregressive Pretraining for Language Understanding(2019-6-19)
XLNet 中提出了一种比较有意思的观点,将当前预训练模型分为了两类 AR (Auto Regression,自回归) 和 AE (Auto Encoder,自编码器)。 XLNet 将 AR 和 AE 两种方法的优点结合起来,XLNet 使用了 PLM(Permutation Language Model,排列组合语言模型)实现这一目的。自回归语言模型就是根据上文内容预测下一个可能跟随的单词,也就是常说的自左向右的语言模型,或者反过来也行,就是根据下文预测前面的单词。自回归语言模型有优点有缺点,缺点是只能原创 2022-07-11 12:31:04 · 618 阅读 · 0 评论 -
ERNIE(THU-ERNIE): Enhanced Language Representation with Informative Entities(2019-5-17)
当前的预训练模型(比如BERT、GPT等)往往在大规模的语料上进行预训练,学习丰富的语言知识,然后在下游的特定任务上进行微调。但这些模型基本都没有使用知识图谱(KG)这种结构化的知识,而KG本身能提供大量准确的知识信息,通过向预训练语言模型中引入这些外部知识可以帮助模型理解语言知识。基于这样的考虑,作者提出了一种融合知识图谱的语言模型ERNIE,由于该模型是由清华大学提供的,为区别百度的ERNIE,故本文后续将此模型标记为THU-ERNIE。对于第一个问题,THU-ERNIE使用。原创 2022-10-11 16:43:34 · 360 阅读 · 0 评论 -
ERNIE: Enhanced Representation through Knowledge Integration(2019-4-19)
ERINE是百度发布一个预训练模型,它通过引入三种级别的Knowledge Masking帮助模型学习语言知识,在多项任务上超越了BERT。在模型结构方面,它采用了Transformer的Encoder部分作为模型主干进行训练。关于ERNIE网络结构(Transformer Encoder)的工作原理,这里不再展开讨论。接下来,我们将聚焦在ERNIE本身的主要改进点进行讨论,即三个层级的Knowledge Masking 策略。原创 2022-10-11 10:06:26 · 649 阅读 · 0 评论 -
GPT 2.0:Language Models are Unsupervised Multitask Learners(2019-2-20)
自然语言处理任务(例如问题解答,机器翻译,阅读理解和总结)典型方法是通过在任务相关的数据集上进行监督学习。通过实验证明,语言模型在没有任何明确监督的情况下开始学习这些任务,训练数据集为数百万个网页的新数据集WebText。当以文档加问题为条件时,语言模型生成的答案在CoQA数据集上F1达到55-在不使用127,000多个训练数据的情况下,可以匹配或超过4个基准系统其中3个的性能。语言模型的能力对零样本学习任务迁移成功至关重要,并且提高其性能可以对数线性方式跨越任务。原创 2022-10-12 10:47:02 · 362 阅读 · 0 评论 -
XLM:Cross-lingual Language Model Pretraining(2019-1-22)
尽管原有的BERT模型可以在上百种语言上进行预训练,语言之间的信息并不是互通的,不同的语言模型之间没有共享知识。Facebook的XLM模型克服了信息不互通的难题,将不同语言放在一起采用新的训练目标进行训练,从而让模型能够掌握更多的跨语言信息。这种跨语言模型的一个显著优点是,对于预训练后的后续任务(比如文本分类或者翻译等任务),训练语料较为稀少的语言可以利用在其他语料上学习到的信息。原创 2022-10-08 19:28:25 · 689 阅读 · 0 评论 -
Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context(2019-1-9)
Transformer最大的问题在于没有办法建模超过最大长度的序列,Transformer-XL主要提出了两个优化点:段级递归和相对位置编码。为了解决固定长度的限制,Transformer-XL提出了一种递归机制,如下图,第一个segment计算完成后,把计算的结果保存下来,在计算第二个片段的时候,把第一个片段的hidden state和第二个片段的hidden state拼接在一起,再进行后续的计算。我们看下具体的计算公式,其中h表示的是hidden state, τ \tau τ表示第 τ \tau原创 2022-07-10 10:43:06 · 494 阅读 · 0 评论 -
BERT:Bidirectional Encoder Representation from Transformers(2018-10-11)
BERT不同于Transformer,Embedding采用三种相加的形式来表示:token embeddings、segment embeddings和position embeddings都是简单的Embedding层。假设输入的batch形状为(batch_size, seq_len),token embeddings负责将输入句子的映射为维度为d_model的向量,通过该层后的形状为(batch_size, seq_len, d_model);原创 2022-05-06 18:49:05 · 1230 阅读 · 0 评论 -
GPT:Improving Language Understanding by Generative Pre-Training(2018-6-12)
基本概念Embedding嵌入层GPT模型的嵌入层分成两层,一层是token的Embedding,另一层是position的Embedding。GPT的位置编码采用自学习位置编码,不同于Transformer的使用sin、cos函数来表示位置信息的固定位置编码,自学习位置编码将位置信息映射到一个向量,使输入序列位置中的每一个都对应一个位置编码。将两个输出的结果进行相加,得到的结果就是该层输出的结果。实现代码:def get_position_ids(seq_len): position_i原创 2022-05-08 10:11:25 · 710 阅读 · 0 评论 -
ELMo:Embedding from Language Model(2018-2-15)
字符编码层主要对字符进行编码,经过多个卷积层和池化层,再经过多个高速链路层和投影层,作为词的Embedding送入后续的层中。inputs先假设为[batch_size, seq_len, w_dim],其中batch_size代表句子个数维度,也可以当成batch维度,seq_len表示最大句子长度,w_dim表示最大词长度,默认为50。原创 2022-05-04 11:32:38 · 516 阅读 · 0 评论