
预训练语言模型
文章平均质量分 77
# 预训练语言模型,有大有小
强化学习曾小健
"强化学习曾小健2、AI生成曾小健2、我是机器人曾小健具身"都是该号副号。优快云全站百强博客、总近450w+浏览。AI生成式技术,计算机博士;llama3、Baichuan2、Qwen、GLM-4等等项目贡献人(ArtificialZeng)。这个博客的主题主要是强化学习技术、AI生成式技术、AI相关技术、机器人具身智能技术、机器/深度学习论文或科研前沿、GNN图神经网络、神经网络,包括人工神经网络和生物神经网络,及其大脑演化,智能和认知的产生,通用人工智能;
展开
-
百川对齐(Baichuan Alignment)技术报告
我们引入百川对齐(Baichuan Alignment),对百川系列模型中采用的对齐技术进行了详细分析。原创 2024-10-26 17:32:49 · 187 阅读 · 0 评论 -
大模型底层 transformers源码解析之trainer.py
我会根据你提供的trainer.py源代码,用python的Graph包画出流程图,并着重介绍train()方法。- 将 inputs 通过 self._prepare_inputs 方法处理后传给 self.training_step。- 调用 optimizer.step() 和 lr_scheduler.step() 进行参数更新。计算总共需要训练的步数 max_steps 和 num_train_epochs。- 每 args.logging_steps 个步骤打印训练日志。原创 2024-04-17 17:32:46 · 3784 阅读 · 2 评论 -
超详细图解Self-Attention
一年之前,初次接触。当时只觉得模型复杂,步骤繁复,苦读论文多日也没有完全理解其中道理,只是泛泛地记住了一些名词,于其内部机理完全不通,相关公式更是过目便忘。是最核心的思想,最近几日重读论文,有了一些新的感想。由此写下本文与读者共勉。笔者刚开始接触时,最大的不理解的地方就是QKV三个矩阵以及我们常提起的Query查询向量等等,现在究其原因,应当是被高维繁复的矩阵运算难住了,没有真正理解矩阵运算的核心意义。因此,在本文开始之前,笔者首先总结一些基础知识,文中会重新提及这些知识蕴含的思想是怎样体现在模型中的。原创 2023-08-21 17:26:38 · 300 阅读 · 0 评论 -
NLP Bert-base” 模型参数量计算
Bert 的模型由多层双向的Transformer编码器组成,由12层组成768隐藏单元,12个head,总参数量110M,约1.15亿参数量。原创 2023-08-21 17:15:34 · 1362 阅读 · 0 评论 -
线性Attention的探索:Attention必须有个Softmax吗?
值得指出的是,下面介绍的这几种Linear Attention,前两种来自CV领域,第三种是笔者自己构思的,所以都还没有在NLP任务上做过什么实验,各位做模型改进的NLPer们就有实验方向了(^_^)~~顺便说一下,CV领域有不少对Attention的改进工作(除了下面介绍的外,还有。本文介绍了一些从结构上对Attention进行修改从而降低其计算复杂度的工作,其中最主要的idea是去掉标准Attention中的Softmax,就可以使得Attention的复杂度退化为理想的。原创 2023-08-13 21:13:46 · 609 阅读 · 0 评论 -
论文 多模态认知计算
务, 如视觉 – 语言导航 [19], 视觉 – 语言大规模自监督预训练等 [7]. 相较于看图说话与问答任务, 这些。学习任务, 如空间音频驱动下的深度图生成 [64], 空间一致性约束下的多模态自监督学习 [65], 以及视觉。收稿日期: 2022–06–08;损失 [18], 或基于排序的损失 [70] 等度量学习相关的目标实现不同模态间的对齐关系学习, 以实现对不。第 6 节, 围绕多。看, 即式 (5), 时间对齐能够为在减小数据量 D 的基础上, 实现提取信息量的最大化, 而信息量的最大。原创 2023-08-06 15:44:18 · 314 阅读 · 0 评论 -
机器翻译与自动文摘评价指标 BLEU 和 ROUGE
在机器翻译任务中,BLEU 和 ROUGE 是两个常用的评价指标,BLEU 根据精确率(Precision)衡量翻译的质量,而 ROUGE 根据召回率(Recall)衡量翻译的质量。原创 2023-06-21 13:34:19 · 868 阅读 · 0 评论 -
BART论文解读
全称:Denoising Sequence-to-Sequence Pre-training for Natural Language Generation, Translation, and Comprehension。BART来源于BAuto-RegressiveT发表时间: 2019.10.29团队:Facebook AIPaper地址arxiv.org/pdf/1910.13461.pdf。原创 2023-06-16 07:11:36 · 606 阅读 · 0 评论 -
XLNET详解
xlnet作为bert的升级模型,主要在以下三个方面进行了优化采用AR模型替代AE模型,解决mask带来的负面影响 双流注意力机制 引入transformer-xl 排列语言模型PLM在下文中,我将会为大家详细介绍这三个优化点集成Transformer-XL除了上文提到的优化点,作者还将transformer-xl的两个最重要的技术点应用了进来,即相对位置编码与片段循环机制。我们先看下片段循环机制。片段循环机制transformer-xl的提出主要是为了解决超长序列的依赖原创 2021-08-26 17:24:02 · 905 阅读 · 0 评论 -
XLNet 和BERT的区别是什么?
XLNet 和BERT的区别是什么?与AR语言模型不同,BERT被归类为自动编码器(AE)语言模型。AE语言模型的目的是从损坏的输入中重建原始数据。损坏的输入意味着我们使用在训练前阶段将原始token替换为[MASK]。我们的目标是预测into来得到原来的句子。AE语言模型的优点是它可以在向前和向后两个方向上看到上下文。但是AE语言模型也有其不足之处。它在预训练中使用了[MASK],但是这种人为的符号在finetune的时候在实际数据中时没有的,导致了预训练 — finetune..原创 2021-08-26 17:11:20 · 451 阅读 · 0 评论 -
2021-08-26BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding
图 1:BERT 的整体预训练和微调程序。 除了输出层,相同的架构用于预训练和微调。 相同的预训练模型参数用于为不同的下游任务初始化模型。 在微调期间,所有参数都被微调。 [CLS] 是在每个输入示例前添加的特殊符号,[SEP] 是特殊的分隔符标记(例如分隔 问题/答案)Figure 1: Overall pre-training and fine-tuning procedures for BERT. Apart from output layers, the same archit...原创 2021-08-26 16:48:45 · 320 阅读 · 0 评论 -
Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context
AbstractTransformers have a potential of learning longer-term dependency, but are limited by a fixed-length context in the setting of language modeling. We propose a novel neural architecture Transformer-XL that enables learning dependency beyond a fixed原创 2021-08-24 18:08:22 · 171 阅读 · 0 评论 -
Transformer-XL 2
MotivationTransformer最大的问题在于没有办法建模超过最大长度的序列,例如base bert其支持的序列最大长度是512,超过了该长度的序列需要进行截取,再把截取后的片段分别用bert进行编码,该方法虽然可行,但是存在上下文碎片化的问题,也就是说每个片段是单独建模的,互相之间没有上下文信息,并且,不同的片段位置编码都是从0开始,明显是有问题的。可见Transformer对于较长的序列建模能力有限,如何解决该弊端就该Transformer-XL大显身手了。Transformer-X原创 2021-08-24 16:57:04 · 125 阅读 · 0 评论 -
Transformer-XL、Vanilla Transformer
论文想要解决的问题:如何赋予编码器捕获长距离依赖的能力。目前在自然语言处理领域,Transformer的编码能力超越了RNN,但是对长距离依赖的建模能力仍然不足。在基于LSTM的模型中,为了建模长距离依赖,提出了门控机制和梯度裁剪,目前可以编码的最长距离在200左右。在基于Transformer的模型中,允许词之间直接建立联系【self-attention】,能够更好地捕获长期依赖关系,但是还是有限制。2. Vanilla TransformerVanilla Transformer是Transf原创 2021-08-24 16:32:53 · 1381 阅读 · 0 评论 -
2021-08-24XLNET 语言模型
2 . 2 . 3 XLNET 语言模型在 XLNET 语 言 模型 出 现之 前 , 预训 练模 型可 以 大致分为 以 下两种类型 :自 回 归 语 言 模 型 ( Aut oregre s s i ve Language Mode l , ARLM) 和自 编 码 模 型 ( Aut oenc odi ng Language Mo del , AELM) [ 5 2 ] 。自 回 归 语言模型 是单 向 语言模型 , 其基本思想 为根据 上 文 内 容来预测 下 一 个可能跟随 的 单原创 2021-08-24 14:37:59 · 293 阅读 · 0 评论 -
ELMo ,LM:一串词序列的概率分布probability distribution over sequences of words
语言模型(Language Model),语言模型简单来说就是一串词序列的概率分布。Language model is a probability distribution over sequences of words.GPT与ELMo当成特征的做法不同,OpenAI GPT不需要再重新对任务构建新的模型结构,而是直接在transformer这个语言模型上的最后一层接上softmax作为任务输出层,然后再对这整个模型进行微调。他们额外发现,如果使用语言模型作为辅助任务,能够提升有监督模型的原创 2021-08-24 13:53:59 · 250 阅读 · 0 评论 -
2021-08-24自然语言处理预训练模型的研究综述 - 知网论文
语言模型可以看作是一串词序列的概率分布,因此 在早期,研究人员提出了 N-gram 模型[3] ,它是基于统计 语言模型的算法,但是这种做法只能通过概率统计进行 判断,会使数据出现严重的稀疏性,无法考虑词内部的 关联。 随着深度学习技术的迅速发展,词嵌入正式登上历 史的舞台,Bengio 等人在 2003 年提出 NNLM 模型[4] ,随 后出现了一系列词向量技术(如 Word2Vec[5] 、Glove[6] 、 FastTest[7] 等)为文本提供了一种数值化的表示方法,但 是无法解决一词多义的问题原创 2021-08-24 13:40:58 · 541 阅读 · 0 评论