
读paper
文章平均质量分 87
爱睡觉的Raki
我不能只做观众
展开
-
Raki的读paper小记:GQA: Training Generalized Multi-Query Transformer Models from Multi-Head Checkpoints
图2展示了分组查询注意力和多头/多查询注意力的比较。适中数量的组导致插值模型的质量高于MQA,但比MHA更快,正如我们将展示的那样,这代表了一个有利的权衡。然而,更大的模型通常会按比例增加头的数量,使得多查询注意力在内存带宽和容量上都表现出更激进的削减。此外,较大的模型受到注意力的内存带宽开销相对较小,因为键值缓存随着模型维度的增加而增加,而模型的FLOPs和参数随模型维度的。此外,我们引入分组查询注意力,它是多查询注意力和多头注意力的插值,既能够在与多查询注意力相当的速度下实现接近多头注意力的质量。原创 2023-08-09 23:20:40 · 778 阅读 · 0 评论 -
Raki的读paper小记:RWKV: Reinventing RNNs for the Transformer Era
AttnQKVt∑i1Teqt⊤ki∑i1Teqt⊤kiviAttnWKVt∑i1tewtiki∑i1tewtikiviwti∈RT×T是学习到的位置偏移,矩阵中每个元素是一个标量。原创 2023-07-30 03:18:44 · 1346 阅读 · 0 评论 -
Raki的读paper小记:SELF-INSTRUCT: Aligning Language Models with Self-Generated Instructions
用GPT3生成的instructions贡献:(1) 我们引入了SELF-INSTRUCT,一种使用最少人工标记数据诱导指令遵循能力的方法;(2) 我们通过广泛的指令调优实验证明了其有效性;(3) 我们发布了一个大规模的合成数据集,包含52,000个指令,以及一组手动编写的新任务,用于构建和评估未来的指令遵循模型。SELF-INSTRUCT是一种生成任务指令数据的方法,它使用预训练的普通语言模型自身来生成任务,经过过滤和调优,可以让模型更好地遵循指令。原创 2023-07-27 00:48:47 · 680 阅读 · 0 评论 -
Raki的读paper小记:Retentive Network: A Successor to Transformer for Large Language Models
RetNet = linear attention + rope + 显式衰减(即 $\gamma$)原创 2023-07-24 01:32:49 · 638 阅读 · 0 评论 -
Raki的读paper小记:LORA: LOW-RANK ADAPTATION OF LARGE LANGUAGE MODELS
研究任务对大模型进行部分微调已有方法和相关工作现有技术通常通过扩展模型深度引入推理延迟(Houlsby 等人,2019;Rebuffi 等人,2017),或通过减少模型可用序列长度(Li 和 Liang,2021;Lester 等人,2021;Ham-bardzumyan 等人,2020;Liu 等人,2021)面临挑战这些方法通常无法达到微调基线,提出了效率与模型质量之间的权衡。创新思路学习过度参数化的模型实际上位于低内在维度上。原创 2023-07-23 18:46:56 · 775 阅读 · 0 评论 -
Raki的读paper小记:Forget-free Continual Learning with Winning Subnetworks
l1WSN联合学习与每个任务相关联的子网络相关的模型权重和任务自适应二进制掩码,同时尝试通过重用之前子网络的权重来选择要激活的一小组权重(获胜票),每张中奖彩票产生的二进制掩码被编码为一个N位二进制数字掩码,然后使用霍夫曼编码进行压缩,以实现网络容量相对于任务数量的亚线性增长与图1a基于修剪的CL方法不同,该方法在预先训练的主干网络中获得特定于任务的子网络,我们。为了在模型学习新任务时允许前向转移,我们将学习到的,但有选择地,而不是使用所有权重(图1b),这可能会导致有偏的转移。原创 2023-03-05 22:43:42 · 901 阅读 · 0 评论 -
Raki的读paper小记:Neuro-Inspired Stability-Plasticity Adaptation for Continual Learning in Sparse Nets
中增加相同数量的新连接,保持每层的密度,新的连接是随机选择的,只要它们不形成稳定单元的新输入,这保证了连接增长不会破坏稳定单元学习的表示。单元的总激活是否是其对学习任务的贡献的有效指标,观察到移除最活跃的单元比移除相同数量的随机选择单元更会降低性能。在两个任务之间的边界处,它将连接冻结到新的稳定单元中以稳定这些单元,即它不允许相应的权重在该点之后发生变化。在任务边界上,候选稳定单元被提升为稳定单元,稳定单元之间的连接被冻结,然后我们重新初始化剩余的连接。因此可塑单元的功能的未来变化不会传播到稳定单元。原创 2023-03-04 16:29:36 · 332 阅读 · 0 评论 -
Raki的读paper小记录:Online Continual Learning through Mutual Information Maximization
batch CL每个task的数据可以训练任意个epoch,但是online CL每个任务的数据都是以流的形式逐渐出现的,只要积累了一小批训练样本,就可以进行学习inter-task CF指的是学到后面的任务忘了前面的任务intra-task CF指的是一个任务内,学到后面的batch忘掉了前面batch的知识因为online CL每个样本只看到一次,所以只有OCL才会intra-task CF。原创 2023-03-03 14:51:55 · 607 阅读 · 0 评论 -
Transformer及其子孙后代
attention is all you need,现在已经是money is all you need时代了(x首先介绍AtentionQKVsoftmaxdkQKTVq,k和v都是原输入x通过变换矩阵得到的q和k相乘得到系数矩阵,用softmax进行归一化,再乘v得到加权后的表示,这就是自注意力做的事情过程如图:模型图。原创 2023-03-01 16:17:09 · 802 阅读 · 0 评论 -
Raki的读paper小记:Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context
当重用之前的state信息的时候,保持他们的位置信息也是非常重要的,如果依旧使用绝对位置编码,会出现两个segment用了同样的位置的情况,但实际上却差了一个segment的长度,这样会使模型无法区分他们的位置信息。最大可能的依赖是图b的面积下的点,与截断的BPTT不同的是,这里的方法缓存了一连串的隐状态,而不是最后一个,因此应该与相对位置编码技术一起应用。在训练过程中,为前一个片段计算的隐藏状态序列是固定的,并在模型处理下一个新片段时作为扩展上下文被重新使用。Transformer-XL的总公式。原创 2023-02-28 22:11:48 · 267 阅读 · 0 评论 -
Raki的读paper小记:BART
在预训练阶段,encoder类似bert,decoder类似gpt,一个双向一个自回归在fine-tune阶段,未被破坏的文本被同时输入到encoder和decoder,用decoder的最后隐藏层作为表示这种设置的一个关键优势是去噪的灵活性;可以对原始文本进行任意的转换,包括改变其长度。原创 2023-02-28 01:24:12 · 413 阅读 · 0 评论 -
Raki的读paper小记:ConTinTin: Continual Learning from Task Instructions
此工作提出了一个NLP持续学习新范式原创 2023-01-12 01:32:18 · 580 阅读 · 0 评论 -
Raki的读paper小记:Continual Learning of Natural Language Processing Tasks: A Survey
来自UIC的2022最新NLP持续学习综述,第一次总结了各种任务范式原创 2023-01-06 19:27:06 · 1562 阅读 · 1 评论 -
Raki的读paper小记:An Image is Worth One Word Personalizing Text2Image using Textual Inversion
跟prompt非常类似,但是用了图片在特征空间的表示来学习。原创 2022-09-25 00:09:47 · 2297 阅读 · 0 评论 -
Raki的读paper小记:Image as a Foreign Language: BEIT Pretraining for All Vision and Vision-Language Tasks
在视觉任务上,可惜没看到NLP那边杀起来。原创 2022-09-02 20:19:31 · 1528 阅读 · 0 评论 -
Raki的读paper小记:CLIP:Learning Transferable Visual Models From Natural Language Supervision
然后,可以通过自然语言提示利用该任务学习,以实现对许多现有数据集的zero-shot。在足够的规模下,该方法的性能可以与任务特定的监督模型匹敌,尽管仍有很大的改进空间。算是小神作,实验巨大巨全,启发了后面多模态很多很多的工作,初步展现大模型在多模特领域的超强威力。我们发现,采用该范式会使计算机视觉领域出现类似行为,并讨论了这一研究领域的社会影响。我们研究了是否有可能将NLP中任务无关的网络规模预训练的成功转移到另一个领域。使用自然语言作为监督信号,把规模做大,并且不需要标注。原创 2022-09-02 17:30:32 · 931 阅读 · 0 评论 -
Raki的读paper小记:ViLT: Vision-and-Language Transformer Without Convolution or Region Supervision
研究任务已有方法和相关工作面临挑战创新思路实验结论。原创 2022-09-02 16:14:28 · 461 阅读 · 0 评论 -
Raki的读paper小记:OFA: UNIFYING ARCHITECTURES, TASKS, AND MODALITIES THROUGH A SIMPLE Seq2Seq FRAMEWORK
研究任务已有方法和相关工作面临挑战创新思路实验结论为了在保持多任务性能和易用性的同时更好地泛化开放式问题,我们认为全能模型应具有以下三个属性:1.):支持不同类型任务的统一任务表示,包括分类、生成、自监督代理(pretext-task)任务等。并且对预训练或fine-tune不可知2.:所有任务之间共享的统一输入和输出表示,以处理不同的模态3.:足够的任务多样性,以稳健地积累泛化能力。原创 2022-08-21 22:40:21 · 1227 阅读 · 0 评论 -
Raki的读paper小记:Prompting ELECTRA: Few-Shot Learning with Discriminative Pre-Trained Models
我们发现,这些模型的表现一直优于用同等甚至更少的计算量训练出来的MLMs,这表明判别性的预训练模型在zero-shot和few-shot上更有效。分析表明,来自ELECTRA生成器的失败预测实际上可以将具有相反含义的否定词从正确的标记传送到鉴别器,这增强了ELECTRA区分zero-shot预测中具有相反含义概念的能力。分析表明,ELECTRA的生成器很可能将反义词等否定词反馈给判别器,这在预训练期间起到了直接对比的作用。个提示,该模型将正确的目标词预测为原始标记,将不正确的目标单词预测为生成的标记。...原创 2022-08-18 00:31:14 · 282 阅读 · 0 评论 -
Raki的读paper小记:SimVLM: SIMPLE VISUAL LANGUAGE MODEL PRETRAINING WITH WEAK SUPERVISION
在我们的初步实验中,我们发现编码器-解码器模型引入的inductive bias将编码与生成解耦,有助于改善下游任务。另一方面,我们的PrefixLM公式是模态无关的,因此我们可以另外包括纯文本语料库,以补偿alt文本数据中的噪声文本监督。与以前的MLM风格的VLP方法相比,我们在序列到序列框架下的PrefixLM模型不仅享有MLM中的双向上下文表示,而且可以执行类似于LM的文本生成。我们的工作为现有的VLP范式提供了一个很有前途的替代方案,我们希望我们的工作能够启发生成VLP的未来研究。......原创 2022-08-16 20:49:00 · 946 阅读 · 0 评论 -
Raki的读paper小记:Dark Experience for General Continual Learning: a Strong, Simple Baseline
Abstract & Introduction & Related Work研究任务通用持续学习已有方法和相关工作面临挑战忽略了实际场景的特性,即数据流不能被塑造为任务序列,而且离线训练也不可行我们致力于实现一般持续学习(GCL),在这种情况下,任务边界模糊,领域和类别分布逐渐或突然转变。我们通过将重现与知识蒸馏和正则化相混合来解决这个问题;我们简单的baseline,即黑暗经验重放,与整个优化轨迹中采样的网络对数相匹配,从而促进与它的过去的一致性创新思路依靠黑暗知原创 2022-04-10 11:55:58 · 2204 阅读 · 2 评论 -
Raki的读paper小记:Kernel Continual Learning
Abstract & Introduction & Related Work研究任务持续学习已有方法和相关工作面临挑战创新思路部署了一个外显记忆单元,为每个任务存储一个子储存每个任务的子样本集,以学习特定任务的 基于核岭回归的分类器不需要记忆重放,而且系统性地避免了分类器的任务干扰我们进一步引入变分随机特征,来为每个任务学习一个数据驱动的内核,为此,我们将核持续学习表述为一个变分推理问题,其中随机傅里叶基被纳入为隐变量实验结论随机傅里叶基础上的变分后验分布是从每原创 2022-04-09 17:20:50 · 597 阅读 · 0 评论 -
Raki的读paper小记:DualNet: Continual Learning, Fast and Slow
Abstract & Introduction & Related Work研究任务持续学习已有方法和相关工作面临挑战虽然无监督和元训练在简单的数据集如MNIST和Omniglot上显示出比较好的结果,但它们缺乏对现实世界基准的扩展性。相比之下,我们的DualNet将表征学习解耦到慢速学习器中,通过与监督学习阶段的同步训练,在实践中是可以扩展的。此外,我们的工作将自我监督的表征学习纳入持续的学习过程中,不需要任何预训练步骤创新思路提出了DualNet,其中包括一个快速原创 2022-04-09 15:21:42 · 3315 阅读 · 1 评论 -
Raki的读paper小记:Rational LAMOL: A Rationale-Based Lifelong Learning Framework
Abstract & Introduction & Related Work研究任务持续学习(lifelong learning)已有方法和相关工作LAMOLComponent Freezing:虽然组件冻结也是微调过程中的一种常见做法,但它是为了防止模型低层的常识损失,相比之下,许多基于架构的LL方法,例如Rusu等人(2016),利用组件冻结来防止改变从以前的任务中学到的知识,并扩大模型以适应新的任务,从而使模型对遗忘免疫,我们的模型与基于架构的方法不同,只有一小部分模型被原创 2022-04-09 11:10:31 · 1478 阅读 · 0 评论 -
Raki的读paper小记:LAMOL: LANGUAGE MODELING FOR LIFELONG LANGUAGE LEARNING
Abstract & Introduction & Related Work研究任务lifelong learning已有方法和相关工作面临挑战现有方法大多基于图片或者游戏,而不是语言创新思路提出了一种基于语言模型的lifelong learning方法重现以前任务的伪样本,同时不需要额外的内存或模型容量实验结论结果显示,LAMOL可以防止灾难性遗忘,而没有任何不妥协的迹象,并且只用一个模型就可以连续完成五种非常不同的语言任务sota此外,我们建议在伪原创 2022-04-09 09:25:34 · 681 阅读 · 0 评论 -
Raki的读paper小记:CLASSIC: Continual and Contrastive Learning of Aspect Sentiment Classification Tasks
Abstract & Introduction & Related Work研究任务aspect sentiment classification in domain incremental learning对比持续学习已有方法和相关工作完善的只是新任务的学习,他们并没有处理灾难性遗忘的问题,每个任务使用一个单独的网络。基于胶囊网络面临挑战创新思路第一次在ASC领域探索持续学习结合了对比学习现有的对比学习使用现有数据(如图像)的各种转换(如旋转和裁剪)来原创 2022-04-06 22:31:26 · 960 阅读 · 0 评论 -
Continual Learning for Text Classification with Information Disentanglement Based Regularization
Abstract & Introduction & Related Work研究任务文本分类持续学习已有方法和相关工作基于回放的模型基于正则化的模型面临挑战创新思路我们提出的方法首先将文本隐藏空间分解为所有任务的通用表示和每个单独任务的特定表示,并进一步以不同的方式对这些表示进行调整,以更好地约束概括所需的知识我们还介绍了两个简单的辅助任务:下一句预测和任务id预测,用于学习更好的泛型和特定表示空间实验结论sota把信息分解成一般信息和任务特定原创 2022-04-06 17:51:36 · 972 阅读 · 0 评论 -
Raki的读paper小记:PURE:A Frustratingly Easy Approach for Entity and Relation Extraction
Abstract & Introduction & Related Work研究任务实体和关系抽取已有方法和相关工作结构化预测,两个任务使用同一框架多任务学习,面临挑战长期以来,人们一直认为联合模型可以更好地捕捉实体和关系之间的相互作用,并有助于缓解错误传播问题创新思路我们的方法基本上是建立在两个独立的编码器上,只是使用实体模型来构建关系模型的输入通过一系列仔细的检查,我们验证了为实体和关系学习不同的上下文表征的重要性,在关系模型的早期融合实体信息,原创 2022-03-20 16:38:21 · 2143 阅读 · 0 评论 -
Raki的读paper小记:FastText:Enriching Word Vectors with Subword Information
Abstract & Introduction & Related Work研究任务word representation已有方法和相关工作基于形态学的分解面临挑战流行的学习这种表征的模型忽略了单词的形态,为每个单词分配了一个不同的向量。这是一个局限性,特别是对于具有大词汇量和许多稀有词汇的语言来说创新思路提出了一种基于skipgram的模型,每个词都被表示为一个由n个字符组成的包。每个字符n-gram都有一个向量表示;单词被表示为这些表示的总和允许我原创 2022-03-20 11:30:40 · 1004 阅读 · 0 评论 -
Raki的读paper小记:Enhanced Language Representation with Label Knowledge for Span Extraction
Abstract & Introduction & Related Work研究任务用标签知识来增强文本表达已有方法和相关工作最近的工作引入了标签知识,通过将span提取任务形式化为一个问题回答问题来增强文本表示面临挑战由于训练和推理的低效率,QA形式并没有充分发掘标签知识创新思路它对文本和标签注释进行独立编码,然后通过一个精心设计的语义融合模块将标签知识整合到文本表示中实验结论在四个数据集上sota,大幅减少了训练时间标签知识被隐性地原创 2022-03-19 19:06:53 · 1206 阅读 · 0 评论 -
Raki的读paper小记:Unified Named Entity Recognition as Word-Word Relation Classification
Abstract & Introduction & Related Work研究任务NER同一建模模型(flat,nested,discontinuous)已有方法和相关工作序列标注基于超图的方法seq2seq方法基于span的方法现有方法focus如何准确识别实体边界面临挑战在推理过程中同时存在假结构和结构模糊的问题解码效率曝光偏差基于span的方法受限于最大span长度,模型复杂度创新思路提出了一种基于word-word关系分类的统一N原创 2022-03-19 12:36:36 · 1384 阅读 · 0 评论 -
Raki的读paper小记:SpanBERT: Improving Pre-training by Representing and Predicting Spans
Abstract & Introduction & Related Work研究任务一种预训练方法,旨在更好地表示和预测文本的span已有方法和相关工作面临挑战创新思路在BERT的基础上,mask连续的随机span而不是tokens训练span边界表征来预测被mask的span的全部内容,而不依赖其中的单个token表征实验结论在同样的训练数据下,在QA数据集上达到了sota为了实现SpanBERT,我们建立在BERT的一个精心调整的副本上,它本身原创 2022-03-18 22:34:29 · 725 阅读 · 0 评论 -
Raki的读paper小记:Dice Loss for Data-imbalanced NLP Tasks
Abstract & Introduction & Related Work研究任务数据不平衡的NLP任务已有方法和相关工作面临挑战负样例明显多于正样例,而且大量的容易负面的例子压倒了训练。最常用的交叉熵标准实际上是以准确性为导向的,这在训练和测试之间产生了差异。在训练时,每个训练实例对目标函数的贡献是相同的,而在测试时,F1得分更多关注的是正面实例创新思路将交叉熵损失函数替换成dice loss为了进一步减轻训练中来自容易负样例例子的支配性影响,我们建议将训原创 2022-03-18 20:24:38 · 1196 阅读 · 0 评论 -
Raki的读paper小记:Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks
Abstract & Introduction & Related Work研究任务sentence embedding已有方法和相关工作InferSentUniversal Sentence EncoderSkip-Thought面临挑战BERT在文本语义相似度上达到了sota,然而,它需要将两个句子都送入网络,这导致了大量的计算开销。在10,000个句子的集合中找到最相似的一对,需要用BERT进行大约5千万次推理计算(约65小时)。BERT的构造使其不适合原创 2022-03-18 18:30:52 · 882 阅读 · 0 评论 -
Raki的读paper小记:ELECTRA: PRE-TRAINING TEXT ENCODERS AS DISCRIMINATORS RATHER THAN GENERATORS
Abstract & Introduction & Related Work研究任务预训练语言模型已有方法和相关工作面临挑战虽然它们在转移到下游的NLP任务时产生了很好的结果,但它们通常需要大量的计算才能有效创新思路我们提出了一个更有样本效率的预训练任务,叫做替换token检测。我们的方法不是mask输入,而是通过用从小型生成器网络中抽样的合理的替代物来替换一些token来破坏它我们不是训练一个预测被破坏的token的原始身份的模型,而是训练一个判别模型,预测原创 2022-03-18 17:45:44 · 2343 阅读 · 0 评论 -
Raki的读paper小记:ALBERT: A LITE BERT FOR SELF-SUPERVISED LEARNING OF LANGUAGE REPRESENTATIONS
Abstract & Introduction & Related Work研究任务预训练语言模型已有方法和相关工作面临挑战越来越大的模型需要更多的计算资源和时间去训练创新思路因子化嵌入参数化跨层参数共享用SOP替换NSP实验结论sotaALBERT用了两个很重要的技术来减少参数规模因子化嵌入参数化。通过将大的词汇嵌入矩阵分解成两个小矩阵,我们将隐藏层的大小与词汇嵌入的大小分开。这种分离使得在不大幅增加词汇嵌入的参数大小的情况下,更容易原创 2022-03-18 15:11:25 · 903 阅读 · 0 评论 -
Raki的读paper小记:XLNet: Generalized Autoregressive Pretraining for Language Understanding
Abstract & Introduction & Related Work研究任务预训练语言模型已有方法和相关工作BERT面临挑战依靠用掩码破坏输入,BERT忽略了被掩码位置之间的依赖性,并受到预训练-调整差异的影响创新思路通过对因式分解顺序的所有排列组合的预期可能性最大化,实现了双向语境的学习由于其自回归方法,克服了BERT的限制结合了Transformer-XL,打破了512token的限制实验结论大幅超越BERT的性能XL原创 2022-03-18 13:36:20 · 490 阅读 · 0 评论 -
Raki的读paper小记:RoBERTa: A Robustly Optimized BERT Pretraining Approach
Abstract & Introduction & Related Work研究任务预训练语言模型已有方法和相关工作BERT面临挑战创新思路超参数的选择对最终结果有重大影响实验结论bert的训练是不充足的,我们改进了训练方式达到了sotaExperimental SetupImplementationAdam的 ϵ\epsilonϵ 项非常敏感,在某些情况下,我们在调整它之后获得了更好的性能或改善了稳定性。同样地,我们发现在大批量训练时,设原创 2022-03-18 09:43:46 · 404 阅读 · 0 评论 -
Raki的读paper小记:DEBERTA: DECODING-ENHANCED BERT WITH DISENTANGLED ATTENTION
Abstract & Introduction & Related Work研究任务预训练语言模型已有方法和相关工作BERT, RoBERTa面临挑战创新思路disentangled attention mechanism :每个词用两个向量表示,分别编码其内容和位置,而词之间的注意力权重则分别用关于其内容和相对位置的分解矩阵来计算。enhanced mask decoder :用于在解码层中加入绝对位置,以预测模型预训练中的掩码符号此外,一个新的虚拟对抗训原创 2022-03-17 16:21:48 · 791 阅读 · 0 评论 -
Raki的读paper小记:EDA: Easy Data Augmentation Techniques for Boosting Performance on Text Classification
Abstract & Introduction & Related Work研究任务NLP数据增强已有方法和相关工作将句子翻译成法语再翻译回英语面临挑战NLP中的通用数据增强技术还没有被彻底探索过相关工作具有创造性,但往往很复杂,它们在实践中不常被使用,因为相对于性能增益而言,它们的实施成本很高创新思路使用四种方法进行数据增强:同义词替换、随机插入、随机互换和随机删除实验结论在五个数据集上使用一半的数据达到了之前用全部数据同样的准确率EDA同义词原创 2022-03-17 14:25:56 · 753 阅读 · 0 评论