一步一步理解大模型：因果掩码

原创已于 2023-04-20 04:05:49 修改 · 9.6k 阅读

10 ·

CC 4.0 BY-SA版权

文章标签：

#深度学习 #机器学习 #人工智能

于 2023-04-18 23:21:17 首次发布

GPT模型利用因果掩码防止在预测时看到未来令牌，通过自注意力机制只关注过去信息。训练时，使用torch.triu创建掩码矩阵，屏蔽未来的令牌，确保预测基于已知上下文。

AI助手已提取文章相关产品：

GPT的训练方法是使用因果掩码（causal mask），让模型在预测当前令牌时不能看到未来的令牌。

在Transformer模型中，自注意力（self-attention）是在整个令牌（token）序列上计算的，包括当前令牌之后的令牌。

在训练期间，我们不希望模型在预测当前令牌时看到未来的令牌而“作弊”。为了防止这种情况，我们使用了因果掩码（causal mask），将所有未来的令牌设置为零，有效地从注意力机制中屏蔽了它们。

这使得模型在进行预测时只能关注过去和当前的令牌，并确保它仅基于每个时间步骤可用的信息进行预测。

具体实现中，这种掩码可以通过原始输入和一个合适的上三角矩阵相乘（或者逻辑与）来得到。

# Causal mask
causal_mask = torch.triu(torch.ones(input_shape[1], input_shape[1]), diagonal=1).bool().to(input.device)

例如，这句话：Cat is too fat. 会生成如下矩阵(假设窗口无限大)：

Cat  <PAD> <PAD> <PAD>
Cat    is   <PAD> <PAD>
Cat    is    too   <PAD>

您可能感兴趣的与本文相关内容

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

chattyfish

关注关注

5
点赞
踩
10

收藏

觉得还不错? 一键收藏
1
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

区别探索：掩码语言模型 (MLM) 和因果语言模型 (CLM)的区别

强化学习曾小健

06-23

6905

预训练的目标是利用大量未标记的文本并构建语言理解的通用模型，然后针对各种特定的 NLP 任务（例如机器翻译、文本摘要等）进行微调。例如 - Alpha=1 会给周围的单词赋予相同的权重（这意味着每个单词都将具有相同的权重）对学习到的 MASK 表示的贡献）。在屏蔽语言模型下，我们通常屏蔽给定句子中一定比例的单词，并且模型预计会根据该句子中的其他单词来。另外，直观上这是有道理的，因为在学习每个单词的良好输入表示时，您会想知道。的分布，您可以权衡每个其他输入单词的表示，以学习屏蔽单词的表示，

Transformer大模型实战使用动态掩码而不是静态掩码

AI天才研究院

06-12

996

1. 背景介绍 Transformer是一种基于自注意力机制的神经网络模型，被广泛应用于自然语言处理领域，如机器翻译、文本生成等任务。在Transformer模型中，掩码（mask）是一种重要的机制，用于限制模型在处理序列时只能看到前面的部分，而不能看到后面的部分。在原始的Transformer模型中，掩码是静态的，即在训练过程中就已经确定好了，不能

1 条评论您还未登录，请先登录后发表或查看评论

2 条评论

北山杉林 2024.12.12
博主要不改一下？容易误导人

Chaser_LittleBee 2024.06.20
博主写得很好，但有个地方写错了，因果掩码应该用下三角矩阵。三角矩阵分上三角矩阵和下三角矩阵两种。上三角矩阵的对角线左下方的系数全部为零，下三角矩阵的对角线右上方的系数全部为零。

LLM - Make Causal Mask 构造因果关系掩码

BITDDD小栈

09-25

6471

LLM MakeCausalMask 构造因果关系掩码函数解析。

GPT - 因果掩码（Causal Mask）

qq_60245590的博客

04-10

1516

本节代码定义了一个函数，用于生成因果掩码（Causal Mask）。因果掩码通常用于自注意力机制中，以确保模型在解码时只能看到当前及之前的位置，而不能看到未来的信息。这种掩码在自然语言处理任务（如语言生成）中非常重要，因为它模拟了人类阅读或写作时的顺序性。

微软：超越RoPE！因果掩码是如何精确地编码位置信息的？

最新发布

AI前沿论文/研究/最新技术，每日推送

10-02

799

本文主要对现有概念进行了深入的理论剖析，而非提出全新定义。因果掩码 (Causal Mask)：传统上被视为防止模型看到未来token的机制。本文证明，它还是一种隐式的位置编码机制，通过其不对称的结构，在多层自注意力计算中自然地诱导出与位置相关的注意力模式。位置相关注意力模式 (Position-dependent Attention Pattern)：指注意力分数会根据查询（Query）和键（Key）的绝对位置(i, j)而变化的模式。

知识积累（五）：Transformer 家族的学习笔记

zhuzaiyebol的博客

03-17

1011

a）我们想要 word 带有一些它在句子中的位置信息b）我们想要模型区分对待离得近的单词，和离得远的单词（因为离得近可能语义上更接近等等原因）c）希望模型能够学到位置编码带来的 pattern。

【有啥问啥】因果图模型（Causal Graphical Model, CGM）：理解因果关系的强大工具

Chauvin的博客

08-29

4333

因果图模型作为一种强大的工具，为我们理解和推断变量之间的因果关系提供了系统化的方法。通过图形化表示和干预分析，因果图模型能够揭示复杂系统中的因果链条，并支持科学决策。尽管在模型构建和验证过程中存在挑战，但其在数据分析中的重要性和潜力无可否认。未来，随着技术的发展，我们期待因果图模型能够在更多领域发挥更大的作用，为数据科学带来更多的创新和突破。

【大语言模型 15】因果掩码与注意力掩码实现：深度学习中的信息流控制艺术

熵数实验室

08-23

1338

在Transformer架构中，掩码机制是控制信息流动的关键技术，决定了模型能够"看到"哪些信息。本文从最基础的掩码概念出发，深入解析因果掩码的数学原理和高效实现，详细讲解Padding掩码的处理技巧，并提供批量处理优化方案。我们将通过直观的可视化、完整的代码实现和性能对比，帮助读者掌握这门控制时序信息流动的艺术，为构建高效的语言模型奠定坚实基础。

农业大模型：关键技术、应用分析与发展方向

python122_的博客

05-31

3446

结论/展望］

14、深入理解BERT模型：架构、应用与训练全解析

grpc6streamer的博客

09-24

本文深入解析了BERT模型的架构、训练机制及其在自然语言处理中的广泛应用。文章详细介绍了BERT基于Transformer编码器的双向结构，对比了其与GPT、ELMo等模型的差异，阐述了MLM和NSP两大预训练任务，并探讨了BERT在NER、文本分类等下游任务中的微调方法。同时，文章还涵盖了数据预处理流程、嵌入层设计、内部工作机制及相关技术演进，全面展示了BERT的核心原理与实践价值。

生成-理解大一统：一文浅谈多模态大模型最新研究进展

Paper weekly

09-13

1800

在过去几年中，多模态智能的两个关键支柱——理解和生成，取得了显著进展。多模态大型语言模型（MLLMs），如 LLaVA，在视觉语言任务（例如视觉问答）中表现出色。同时，去噪扩散概率模型（DDPMs）在文本到图像/视频生成方面也取得了前所未有的成果。尽管在各自领域取得了这些成就，研究者们开始探索将这两者连接的潜力。近期的研究尝试将来自不同领域的专家模型组合成一个统一系统，以同时处理多模态理解和生成。...

【从零开始大模型开发与微调】AI 人工智能大语言模型 LLM：语言与思维——实践的融合

AI天才研究院

07-04

3461

在人工智能领域，大语言模型（Large Language Models, LLMs）已经取得了令人瞩目的成就。这些模型基于深度学习，通过在大量文本数据上预训练学习语言知识，被广泛应用于各种自然语言处理（NLP）任务，如图像描述、对话系统、翻译、摘要生成等。但这些模型的性能和表现，特别是其对语言和思维的理解，仍存在诸多困惑和疑问。大语言模型（LLMs）：指基于深度学习技术，通过在大量文本数据上预训练学习语言知识，能够理解和生成自然语言的大规模模型。自监督学习。

一步一步理解大模型：注意力填充掩码的作用

chattyfish的博客

04-18

1862

因此，在Attention Pad Mask的作用下，模型只会关注输入序列中实际的token，而忽略填充token。在计算注意力分数时，对于第一个序列中的第4和第5个位置，以及第二个序列中的最后三个位置，由于其对应的填充token为0，因此Attention Pad Mask中的值为True，会将其对应的分数设置为负无穷大。例如，假设我们有一个batch size为2的输入序列，长度分别为5和7，其中填充token的值为0。分别代表查询序列和键序列。

多模态大模型掩码梳理笔记：因果掩码，视觉-语言任务掩码设计

学习记录

02-19

1729

多模态大模型如何针对不同的任务设计Attention Mask

解密大型语言模型：从相关性中发现因果关系？

zenRRan的博客

06-16

1592

深度学习自然语言处理原创作者：wkk因果推理是人类智力的标志之一。因果关系NLP领域近年来引起了人们的极大兴趣，但其主要依赖于从常识知识中发现因果关系。本研究提出了一个基准数据集(CORR2CAUSE)来测试大语言模型(LLM)的纯因果推理能力。其中CORR2CAUSE对LLM来说是一项具有挑战性的任务，有助于指导未来关于提高LLM纯粹推理能力和可推广性的研究。简介因果推理因果推理是推理的一个基...

大模型在因果推理中的创新应用

AI天才研究院

12-31

1065

大模型在因果推理中的创新应用关键词 大模型 因果推理 深度学习 算法数学模型系统架构摘要本文旨在探讨大模型在因果推理领域的创新

大模型的因果推理：模拟、局限与未来

神棍之路

08-27

1379

因果幻觉”（Causal Illusion）是指大型语言模型在处理信息时，倾向于在缺乏充分证据的情况下，错误地推断出变量之间存在的因果关系。这种现象是模型将相关性误解为因果性的直接体现。由于模型的训练目标是预测序列中的下一个词，它们会学习并强化数据中所有形式的统计关联，无论这些关联是否具有真实的因果基础。当面对一个需要解释的问题时，模型会倾向于构建一个连贯的叙事，即使这个叙事是基于虚假的因果链条。例如，当被问及“为什么冰淇淋销量增加时，溺水事故也增多？

大模型处理输入长度不一致问题；注意力掩码（Attention Mask）；可变长度位置编码；位置编码（Positional Encoding）；截断或分割

ZJQ的博客

08-07

536

大模型处理输入长度不一致问题；注意力掩码（Attention Mask）；可变长度位置编码；位置编码（Positional Encoding）；截断或分割

技术动态 | 也看大模型在事理图谱中的有趣表现：从概率链式因果搜索到因果抽取再到指令驱动的图谱构建评测...

开放知识图谱

05-11

2560

转载公众号 | 老刘说NLP事理图谱是过去一年来比较火的一个方向，其靠着主打推理预测这一特点，通过构建以事件为核心，事件之间因果等关系，形成传导推理链，一度被认为大有可为。但目前大模型席卷之下，事理图谱从推理端，从构建侧，在大模型看来又是怎样的性能，是否有惊艳的表现。为了解决这个问题，本文从应用搜索，图谱构建，脚本预测三个角度进行介绍，并在最后介绍一个基于指令微调的评测任务，供大家参考。一、大模型...

【MHA】之 Attention Mask (with back & forward trace) / Causal Mask (with back trace)

化甘

11-20

5025

文章目录1. Attention Mask or Causal Mask2. Causal Mask (with n_backtrce)3. Attention Mask with backstrace and forwardtrace4. Customized Mask 在multihead attention 中可添加attention mask,对输入进行范围限定,如因果mask (causal mask):即可限定只看当前点前面的数据,不可看该点之后的数据.从矩阵上看,causal mask类似