
nlg_paper
nlg文献阅读记载
咕噜咕噜day
day day up!
展开
-
论文阅读:CTRL: A CONDITIONAL TRANSFORMER LANGUAGE MODEL FOR CONTROLLABLE GENERATION
原创 2021-01-10 14:51:08 · 1431 阅读 · 0 评论 -
论文阅读:GPT-Improving Language Understanding by Generative Pre-Training
Abstract 通过在不同的无标记的文本语料库上生成语言模型的预训练,然后对每个任务进行区分性调整 在微调期间使用任务感知的输入转换,同时对模型体系结构进行最小的更改 1.INTRODUCTION 未标记文本的单词级信息仍旧是一个挑战 1.First, it is unclear what type of optimization objectives are most eff...原创 2019-08-31 15:02:53 · 643 阅读 · 0 评论 -
论文阅读:N3LDG,一种轻量级自然语言处理深度学习库
pytorch之前的库都是静态定义计算图的,pytorch和N3LDG都是是动态定义计算图,本库实现了动态计算图和自动批量化自然语言处理构建适用所有实例的计算图难处:各实例的长度不一样 实例包含结构化信息,比如句法结构(词语组成句子的结构)1. 相关工作GPU加速:高效的分配显存。比如创建3个显存块,一个前向传播使用,一个反向传播,最后一个用于存储参数和相关梯度。通过显存池动态分配...原创 2019-04-04 19:18:09 · 411 阅读 · 0 评论 -
论文阅读:CoCon: A Self-Supervised Approach for Controlled Text Generation
参考:https://zhuanlan.zhihu.com/p/245816301https://link.zhihu.com/?target=https%3A//arxiv.org/abs/2006.03535原创 2020-12-09 23:42:57 · 879 阅读 · 0 评论 -
论文阅读:A Large-Scale Chinese Short-Text Conversation Dataset(CDial-GPT)
原创 2020-12-08 23:04:02 · 594 阅读 · 0 评论 -
论文阅读:DialoGPT
原创 2020-12-08 23:01:34 · 1619 阅读 · 0 评论 -
论文阅读:Recipes for building an open-domain chatbot
见端到端的开域聊天机器人_Facebook_Blender原创 2020-12-08 23:00:03 · 908 阅读 · 0 评论 -
论文阅读:Span-ConveRT: Few-shot Span Extraction for Dialog with Pretrained Conversational Representation
原创 2020-12-08 22:57:47 · 465 阅读 · 0 评论 -
论文阅读:Adapting a Language Model for Controlled Affective Text Generation
原创 2020-12-08 22:56:10 · 183 阅读 · 0 评论 -
论文阅读:Fine-Tuning Pretrained Language Models: Weight Initializations, Data Orders, and Early Stoppin
当前预训练模型大都分为两个训练阶段:预训练和微调;但是在微调时,随机种子的影响也是非常大;这篇文章就是讨论的微调时,受随机种子影响的参数初始化和数据训练顺序,以及提前终止训练对最终结果的影响;实验证明,参数初始化和数据训练顺序对结果影响巨大,甚至比得上最先进的模型;作者通过在这四个数据集上进行大量实验发现,使用某些性能最好的随机种子,同时在四个数据集上都能达到接近best acc的性能;另外作者通过大量实验发现在模型训练初期,如果发现模型的性能比经验的性能差,那么这个模型可以提前终止,节省...原创 2020-07-07 17:22:01 · 713 阅读 · 0 评论 -
论文阅读:PLUG AND PLAY LANGUAGE MODELS: A SIMPLE APPROACH TO CONTROLLED TEXT GENERATION(PPLM)
paper:https://arxiv.org/abs/1912.02164code: https://github.com/uber-research/PPLM(单独 PPLM) https://github.com/huggingface/transformers/tree/master/examples/pplm(集成 Transformer) 一. NLP 研究人员们提出过各种各样的条件文本生成方式,包括,从一个预训练语言模型开始,做精细调节,以便让它始终都能生成某种..原创 2020-07-04 22:36:50 · 2457 阅读 · 0 评论 -
论文阅读:Keywords-Guided Abstractive Sentence Summarization
这篇文章讲的是把关键词信息添加到摘要生成的encoder-decoder中,具体是通过一个训练进行关键词提取和摘要生成的多任务学习框架;通过双注意和双复制机制对指针生成网络进行扩展,实现了输入语句和关键词的语义集成,实现输入语句和关键词的双向复制;主要贡献点:使用基于关键词引导的方法,获得了更优化的上下文句子潜在表示的语义编码器; 通过双attention和双copy机制能动态的获得输入句子的信息和关键词的信息共同用于decoder的词生成;模型结构如下图: ...原创 2020-07-03 10:38:54 · 1297 阅读 · 0 评论 -
论文阅读:Large-Scale Transfer Learning for Natural Language Generation
迁移学习的思路是:先在大规模的未标注文本语料上无监督地预训练一个语言模型,再把预训练好的语言模型迁移到特定的任务上,对模型参数进行微调。目前迁移学习的大部分研究集中在文本分类和NLU(natural language understanding)任务上,迁移学习应用在NLG(natural language generation)任务上的研究比较少。这篇论文主要研究了迁移学习在对话系统上的应用。作者针对对话系统试验了single-input 和multi-input 这两种模型;因为对话系统主要有三种.原创 2020-07-03 00:37:25 · 435 阅读 · 0 评论 -
论文阅读:Few-shot Natural Language Generation for Task-Oriented Dialog
paper:https://arxiv.org/abs/2002.12328code/data/demo:http://scgpt.westus2.azurecontainer.io/目前任务导向型对话存在的问题,要么依赖固定对话生成的模型,要么只能在一些具体领域的基于一些有限标注数据集进行训练。本文提出了一个基于”预训练-预训练-微调”的模型,目的是提高任务导向型对话生成的文本的流畅性和准确度;流程是首先在通用语料上预训练,然后在大量对话数据集上预训练,最后再使用具体领域的数据集进行微调,能极原创 2020-07-03 00:35:20 · 592 阅读 · 0 评论 -
论文阅读:Automatic Generation of Personalized Comment Based on User Profile
文章链接:https://arxiv.org/abs/1907.10371code:https://github.com/Walleclipse/AGPC本文作者提出一种基于用户个性化信息来生成评论的方法;个性化信息如下: 方法如模型结构图: 首先是基于seq2seq模型+attention机制,encod...原创 2020-07-03 00:24:38 · 608 阅读 · 0 评论 -
论文阅读:Generating Abstractive Summaries with Finetuned Language Models
文章简介:作者认为神经摘要模型可以利用预先训练的语言表示来生成更抽象的文本主要方法:很多摘要生成是在源文本复制词,而不是去理解 解释它,而作者解释作者使用的数据集TK;DR数据集,的摘要是人工撰写,不同于一些用复制+少量人工撰写的新闻数据集;模型对比:其中Transformer+Pretrain,是采用的【1】 pseudo self attention method:S是encoder的输出,Uk,Uu是附加参数,可以理解成再注入encoder上下文信息进入decoder进行约束,其他和原始原创 2020-05-30 15:51:15 · 278 阅读 · 0 评论 -
论文阅读:Neural Machine Translation with Byte-Level Subwords
文章简介:基于字符,子词,词的机器翻译几乎都是以词频top-k数量建立的词典;但是针对字符相对杂乱的日文和字符较丰富的中文,往往他们的罕见词难以表示;本文提出采用字节级别的字词BBPE(byte-level BPE),不会出现oov的词;比纯用字节表示更方便,比只用字符表示又效果更好;当BBPE和BPE性能接近时,词典size只是BPE的1/8;主要方法:整体思想是,把文本表示生字节级别的n-gram,而不是常用的字符级别n-gram;把文本用UTF-8编码,每个字符最多用4字节;首先把句子变成原创 2020-05-30 11:40:37 · 1528 阅读 · 0 评论 -
论文阅读:Text-to-Text Pre-Training for Data-to-Text Tasks
文章简介:这篇文章内容很简单,作者对最近发布的 【1】T5模型应用data-to-text领域的数据进行微调,发现在WebNLG,MultiWoz,ToTTo三个数据集上都优于目前的性能;作者提出可能这种只采用预训练模型,不需要进行现在文本生成领域流行的规划生成【2】【3】,词约束和复制机制方法,同样也能取得比较好的文本生成效果;主要内容:预训练:实验T5模型:Small (60 million parameters), Base (220 million), Large (770 million)原创 2020-05-28 18:35:38 · 1135 阅读 · 0 评论 -
论文阅读:Negative Lexically Constrained Decoding for Paraphrase Generation
简介: 转述生成可以看作是一种单语翻译,但是不像双语翻译,转述生成并不像机器翻译进行保守几乎重写所有词;本文作者提出首先识别源句子中需要转述的词,然后在decode时采用负面词约束方式避免输出这些词; 主要方法: 总的来说,为了改善转述生成的重写,首先需要识别给定句子中需要转述的词,接下来用预训练好的转述生成模型进行生成;方法是在beam search中添加负面约束,使得beam search生成的句子不包括带有那些词的句子; ...原创 2020-05-27 21:58:11 · 507 阅读 · 0 评论 -
论文阅读:Unsupervised Paraphrasing without Translation
文章简介: 这篇文章提出只用无标签的单语语料学习转述模型,并提出了一个向量量化变分自动编码器(VQ-VAE)的残差变体;作者和基于机器翻译(监督和无监督)的方法对比,单语转述方法对无监督方法全面胜出,跟监督翻译对比在识别和增强方面胜出,生成方面不如;方法: 作者提出的模型是对VQ-VAE decoder entropy 简单的优化,允许生成语义相似但是风格类型不同的句子; paraphrasing model 评估: ...原创 2020-05-27 20:50:57 · 602 阅读 · 0 评论 -
论文阅读:Generating Fluent Adversarial Examples for Natural Languages
论文简介: nlp领域的对抗攻击存在两个问题:1.因为句子空间是离散的,在梯度下降方向很难添加扰动;2.生成的对抗样本句子流畅性不能保证;这篇文章提出MHA,利用Metropolis-Hastings sampling能一定程度解决上面问题;实验数据集:IMDB,SNLI ;做对比的文章是【1】Alzantot et al.的genetic attack model,但是作者提出这篇文章生成流畅性不足(PPL800),相关文章【2】Ebrahimi et al,但是这篇文章生产时不能选择...原创 2020-05-26 17:24:23 · 531 阅读 · 1 评论 -
论文阅读:Dual Supervised Learning for Natural Language Understanding and Generation
简介: 利用自然语言理解(NLU)和自然语言生成(NLG)的二元性,进行循环训练,实验证明这种训练方式能够提高任务的性能;主要贡献点: 一.核心算法 The training strategy is based on the standard supervised learning and incorporates the probability duality constraint, so-called du...原创 2020-05-25 01:27:57 · 485 阅读 · 0 评论 -
论文阅读:Fast Lexically Constrained Decoding with Dynamic Beam Allocation for Neural Machine Translation
内容简介:1.引言词法约束机器翻译:词约束又叫做引导解码,修改beam search 强迫输出必须包含指定的词或者短语。虽然这个方法在理论上可行,但现有方法对于约束数量有线性(Hokamp和Liu,2017)或指数(Anderson等,2017)的计算复杂性。 这篇文章提出了一种用于词约束解码的算法,其约束数量为O(1)的复杂度。并在sockeye上有实现。词法约束解码实质上是对beam search的修改,允许用户指定单词翻译。两种算法:网格波束搜索(Hokamp和Li..原创 2020-05-24 17:31:52 · 1200 阅读 · 1 评论 -
论文阅读:Curate and Generate: A Corpus and Method for Joint Control of Semantics and Style in Neural NLG
简介: 基于神经网络的自然语言生成(NNLG)领域进行文本生成时经常有两大瓶颈,(1)缺乏大量(meaning representation)MR to (natural language)NL的数据;(2)不能系统的控制输出的重要方面,从而使得生成不同风格的文本;作者这篇文章围绕这两个问题,基于Yelp数据集(代表能够容易获取的描述性的数据集),能生成出具有不同标签同时大量的和原文一样能用于训练的数据集;并且论文系统的研究了这些文本类型标签是怎么联合控制模型输出的语义(semantic)和文本...原创 2020-05-23 03:43:49 · 352 阅读 · 0 评论 -
论文阅读:Get to the point: summarization with pointer-generator networks
简介: 基于注意力机制的Seq2Seq模型,使用每一步解码的隐层状态与编码器的隐层状态计算权重,最终得到context向量,利用context向量和解码器隐层状态计算输出概率。这篇文章主要试图解决问题1、无法准确复述原文细节,无法处理不在词表中的词(oov问题) 2、生成的在摘要中存在重复的片段Pointer-generator network模型结构图:主要贡献点:...原创 2020-04-28 14:40:49 · 341 阅读 · 0 评论 -
论文阅读:data-to-text generation with entity modeling
文章核心内容:模型结构图:一、Entity Memory: 作者在常规的encoder-attention-decoder以及copy mechanism下,针对实体生成,在decoder过程中不断更新实体,更新的过程采用门机制,类似于LSTM;具体如下公式(9),比如有k个entity,对每个entity,在decoder time t,新U(t,k)更新是由δ(...原创 2020-04-28 12:47:43 · 845 阅读 · 0 评论