
预训练语言模型
文章平均质量分 94
预训练语言模型相关的一些基础知识、前沿动态(论文)、代码等内容。
CoreJT
中科院自动化所在读直博生,感兴趣的研究方向:文本分类、情感分析、机器阅读理解与问答系统以及对话系统。
展开
-
预训练语言模型 | (6) 浅谈Prompt的前世今生
原文链接导读:本文的目标是对近期火爆异常的Prompt相关研究作一些追溯和展望,内容主要参考论文《Pre-train, Prompt, and Predict: A Systematic Survey of Prompting Methods in Natural Language Processing》,并掺杂了笔者的一些个人见解。另外,封面及文中使用的图片均截取自该论文,转载请注明出处。文章目录1. Prompt的产生和兴起2. 什么是Prompt3. Prompt的设计Prompt的形状手工设计模转载 2022-02-21 17:04:51 · 2732 阅读 · 0 评论 -
预训练语言模型 | (5) StructBert和RoBerta
目录1. StructBert2. RoBerta3. Bert系列预训练语言模型总结1. StructBertstructbert的创新点主要在loss上,除了MLM的loss外,还有一个重构token顺序的loss和一个判断2个segment关系的loss。重构token顺序的loss是以一定的概率挑选segment中的token三元组,然后随机打乱顺序,最后经过encod...转载 2020-02-06 14:27:14 · 2193 阅读 · 0 评论 -
预训练语言模型 | (4) AlBert
目录1. 背景2. Albert流程和技术细节3. 总结1. 背景增大预训练模型的大小通常能够提高预训练模型的推理能力,但是当预训练模型增大到一定程度之后,会碰到GPU/TPU memory的限制。因此,作者在bert中加入了2项减少参数的技术,能够缩小bert的大小,并且修改了bert NSP的loss,在和bert有相同参数量的前提之下,有更强的推理能力。2. A...转载 2020-02-06 14:14:54 · 1491 阅读 · 0 评论 -
预训练语言模型 | (3) Bert
目录1. 背景2. Bert流程和技术细节3. 总结1. 背景在bert之前,将预训练的embedding应用到下游任务的方式大致可以分为2种,一种是feature-based,例如ELMo这种将经过预训练的embedding作为特征引入到下游任务的网络中;一种是fine-tuning,例如GPT这种将下游任务接到预训练模型上,然后一起训练。然而这2种方式都会面临同一个问题,就...转载 2020-02-05 22:50:41 · 1711 阅读 · 0 评论 -
预训练语言模型 | (2) transformer
原文链接目录1. 背景2. transformer流程与技术细节3. 总结1. 背景17年之前,语言模型都是通过rnn,lstm来建模,这样虽然可以学习上下文之间的关系,但是无法并行化,给模型的训练和推理带来了困难,因此论文提出了一种完全基于attention来对语言建模的模型,叫做transformer。transformer摆脱了nlp任务对于rnn,lstm的依赖,使...转载 2020-02-05 22:28:49 · 1861 阅读 · 0 评论 -
预训练语言模型 | (1) 概述
自从Bert问世以来,预训练语言模型的各种变体层出不穷,在预训练语言模型专栏,我将参考一些资料,对一些主要的平时使用比较多的预训练语言模型做一些理论层面的整理。至于预训练语言模型的应用,可以查阅我的文分分类和机器阅读理解相关专栏,上面结合代码和具体的任务,详细说明了如何把预训练语言模型应用到文本分类和阅读理解任务上。全系列预训练语言模型的相关论文可以查看清华大学刘志远老师组整理的li...原创 2020-02-05 21:58:57 · 2274 阅读 · 0 评论