《大模型应用开发极简入门》随记

最新推荐文章于 2026-01-06 09:44:03 发布

原创

最新推荐文章于 2026-01-06 09:44:03 发布 · 728 阅读

9 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能

术语：

自然语言处理（NLP)
人工智能（AI）
大预言模型（LLM）
机器学习（ML)
深度学习（DL)

内容

LLM概述

ML算法被称为人工神经网络
DL是ML的一个分支

最先开始简单语言模型吗，例如：n-gram模型（通过词频来根据前面的词预测句子里下一个词---可能生成不连贯的词），为了提升性能引入循环神经网络（RNN）和长短期记忆（LSTM）网络---处理大量数据效率还是不行。

Transformer架构

架构概述

Transformer架构是一种基于注意力机制的深度学习模型架构，主要用于处理自然语言处理（NLP）任务，如机器翻译、文本生成、问答系统等。它的出现解决了传统循环神经网络（RNN）在处理长文本序列时面临的诸多问题，尤其是“灾难性遗忘问题”，即随着序列长度的增加，RNN难以记住早期输入的信息，导致对上下文的理解能力下降。

解决长文本序列和上下文记忆问题

在RNN时期，由于其顺序处理的特性，每个时刻的隐藏状态都依赖于前一时刻的隐藏状态和当前输入。当处理长文本时，早期输入的信息在经过多次迭代后，会逐渐被稀释和遗忘，使得模型很难记住长距离的上下文信息。而Transformer架构通过引入注意力机制，有效地解决了这一问题。注意力机制允许模型在处理每个位置的信息时，能够动态地关注输入序列的不同部分，从而更好地捕捉长距离的依赖关系，记住上下文信息。

注意力机制

交叉注意力（Cross-Attention）：

- 原理：交叉注意力主要用于解码器部分，帮助模型确定输入文本的不同部分和输出文本的下一个词的相关性。在机器翻译等任务中，解码器在生成目标语言的单词时，会通过交叉注意力机制，关注编码器输出的特征表示，找到与当前要生成的单词最相关的输入部分。例如，在将“我喜欢苹果”翻译成英文时，当解码器生成“like”这个单词时，交叉注意力机制会关注编码器中“喜欢”这个词对应的特征表示，从而更好地生成正确的翻译。
- 优势：使得解码器能够更准确地利用编码器提供的信息，提高生成文本的质量和准确性。通过动态地关注输入文本的不同部分，交叉注意力机制可以更好地处理语义信息的对齐和转换，适用于需要将源语言信息映射到目标语言的任务。
- 应用场景：广泛应用于机器翻译、文本摘要等任务中，其中需要根据输入文本生成相应的输出文本，并且需要在输入和输出之间建立有效的联系。

自注意力机制（Self-Attention）：

- 原理：自注意力机制指模型能够关注其输入文本的不同部分，计算输入序列中各个位置之间的相关性。在Transformer的编码器和解码器中都使用了自注意力机制。对于输入序列中的每个位置，自注意力机制会计算该位置与其他所有位置的注意力分数，然后根据这些分数对输入进行加权求和，得到该位置的新表示。这样，模型可以在不依赖于顺序处理的情况下，捕捉到输入序列中的长距离依赖关系。
- 优势：相比RNN的顺序处理方式，自注意力机制能够并行计算，大大提高了计算效率和训练速度。它可以更好地处理长文本序列，因为每个位置都可以直接与其他位置进行交互，而不受序列长度的限制。自注意力机制还能够捕捉到输入序列中的复杂语义关系，提高模型的表示能力。
- 应用场景：在各种自然语言处理任务中都有广泛应用，如文本分类、命名实体识别、情感分析等，其中需要对输入文本进行深入的语义理解和特征提取。

并行化优势

与RNN不同，Transformer架构具有易于并行化的趋势。RNN由于其顺序处理的特性，每个时刻的计算都依赖于前一时刻的结果，因此难以在多个计算设备上并行计算。而Transformer的自注意力机制允许同时计算输入序列中各个位置的表示，无需顺序处理。这使得Transformer可以充分利用现代计算设备（如GPU）的并行计算能力，大大提高了计算和训练速度。在处理大规模数据和长文本序列时，这种并行化优势尤为明显，可以显著减少训练时间和计算资源的消耗。

编码器和解码器

编码器处理输入文本，识别有价值的特征，生成有意义的文本标识---嵌入

解码器使用嵌入输出

主要组件：编码器和解码器

编码器（Encoder）：

- 功能与工作原理：编码器的主要作用是处理输入文本，识别其中有价值的特征，并生成有意义的文本标识，即嵌入（Embedding）。编码器由多个相同的层组成，每个层包含两个主要子层：自注意力子层和前馈神经网络子层。在自注意力子层中，输入序列首先通过自注意力机制计算各个位置之间的相关性，得到加权后的表示。然后，这个表示会传递到前馈神经网络子层，进行进一步的非线性变换和特征提取。经过多个层的处理，编码器最终输出输入文本的高级特征表示，这些特征表示包含了输入文本的语义信息和上下文关系。
- 优势：通过多层的自注意力和前馈神经网络的组合，编码器能够有效地捕捉输入文本的长距离依赖关系和复杂语义特征，为后续的任务提供高质量的特征表示。编码器的并行计算特性使得它能够快速处理大规模的输入文本，提高了模型的训练和推理效率。
- 应用场景：作为Transformer架构的基础组件，编码器广泛应用于各种自然语言处理任务的特征提取阶段，如机器翻译、文本分类、问答系统等。在这些任务中，编码器的输出会被传递给解码器或其他模块，用于进一步的处理和决策。

解码器（Decoder）：

- 功能与工作原理：解码器使用编码器生成的嵌入输出，结合交叉注意力机制和自注意力机制，生成目标文本。解码器同样由多个相同的层组成，每个层包含三个子层：自注意力子层、交叉注意力子层和前馈神经网络子层。在自注意力子层中，解码器处理已经生成的部分目标文本，捕捉其内部的依赖关系。然后，在交叉注意力子层中，解码器会关注编码器的输出，找到与当前要生成的目标单词最相关的输入特征。最后，在前馈神经网络子层中，对经过注意力计算的表示进行进一步的变换和处理，生成下一个单词的概率分布。通过不断重复这个过程，解码器逐步生成完整的目标文本。
- 优势：解码器的设计使得它能够充分利用编码器提供的信息，同时考虑已经生成的目标文本的上下文，生成连贯、准确的输出。交叉注意力机制和自注意力机制的结合，使得解码器能够灵活地处理不同类型的任务和输入输出关系，提高了模型的适应性和生成能力。
- 应用场景：主要应用于需要生成文本的任务，如机器翻译、文本生成、摘要生成等。在这些任务中，解码器根据编码器提供的输入特征和已经生成的部分目标文本，逐步生成完整的目标文本，实现从输入到输出的转换。

Transformer架构通过引入注意力机制、并行化计算以及独特的编码器-解码器结构，有效地解决了传统RNN在处理长文本序列时的问题，成为了现代自然语言处理领域的核心架构之一，并在多个任务中取得了优异的性能表现。随着技术的不断发展，Transformer架构也在不断演进和扩展，应用于更多的领域和任务中。

生成式预训练（Generative Pre-training Transformer，简称GPT）

是一种基于Transformer架构的模型，它被设计用于自然语言处理任务，如文本生成、翻译和问答。GPT模型的关键特点是它不使用传统的编码器-解码器架构，而是仅依赖于一个解码器堆叠，这使得模型能够生成连贯的文本。

GPT模型的标记化和预测步骤如下：

标记化（Tokenization）：

- 输入文本首先被分词器（Tokenizer）处理，分词器将文本拆分为更小的单元，称为标记（tokens）。这些标记可以是单词、子词或字符，具体取决于所使用的分词器。
- 例如，输入文本 "The quick brown fox jumps over the lazy dog" 可能被分词器拆分为 ["The", "quick", "brown", "fox", "jumps", "over", "the", "lazy", "dog"]。

预测（Prediction）：

- 标记化的输入文本被送入GPT模型。模型通过一系列的自注意力机制（self-attention mechanisms）来处理这些标记，从而捕捉上下文信息。
- 在自注意力机制中，模型会计算每个标记与其他标记之间的相关性，这有助于模型理解整个句子的上下文。
- 模型接着会预测下一个标记的概率分布，即在给定前面的文本的情况下，下一个最有可能出现的标记是什么。
- 这个过程会重复进行，直到生成完整的文本或达到预定的最大长度。