《大模型应用开发极简入门》随记

术语:

  1. 自然语言处理(NLP)
  2. 人工智能(AI)
  3. 大预言模型(LLM)
  4. 机器学习(ML)
  5. 深度学习(DL)

内容

LLM概述

  1. ML算法被称为人工神经网络
  2. DL是ML的一个分支

最先开始简单语言模型吗,例如:n-gram模型(通过词频来根据前面的词预测句子里下一个词---可能生成不连贯的词),为了提升性能引入循环神经网络(RNN)和长短期记忆(LSTM)网络---处理大量数据效率还是不行。

Transformer架构

架构概述

Transformer架构是一种基于注意力机制的深度学习模型架构,主要用于处理自然语言处理(NLP)任务,如机器翻译、文本生成、问答系统等。它的出现解决了传统循环神经网络(RNN)在处理长文本序列时面临的诸多问题,尤其是“灾难性遗忘问题”,即随着序列长度的增加,RNN难以记住早期输入的信息,导致对上下文的理解能力下降。

解决长文本序列和上下文记忆问题

在RNN时期,由于其顺序处理的特性,每个时刻的隐藏状态都依赖于前一时刻的隐藏状态和当前输入。当处理长文本时,早期输入的信息在经过多次迭代后,会逐渐被稀释和遗忘,使得模型很难记住长距离的上下文信息。而Transformer架构通过引入注意力机制,有效地解决了这一问题。注意力机制允许模型在处理每个位置的信息时,能够动态地关注输入序列的不同部分,从而更好地捕捉长距离的依赖关系,记住上下文信息。

注意力机制
  1. 交叉注意力(Cross-Attention)
    • 原理:交叉注意力主要用于解码器部分,帮助模型确定输入文本的不同部分和输出文本的下一个词的相关性。在机器翻译等任务中,解码器在生成目标语言的单词时,会通过交叉注意力机制,关注编码器输出的特征表示,找到与当前要生成的单词最相关的输入部分。例如,在将“我喜欢苹果”翻译成英文时,当解码器生成“like”这个单词时,交叉注意力机制会关注编码器中“喜欢”这个词对应的特征表示,从而更好地生成正确的翻译。
    • 优势:使得解码器能够更准确地利用编码器提供的信息,提高生成文本的质量和准确性。通过动态地关注输入文本的不同部分,交叉注意力机制可以更好地处理语义信息的对齐和转换,适用于需要将源语言信息映射到目标语言的任务。
    • 应用场景:广泛应用于机器翻译、文本摘要等任务中,其中需要根据输入文本生成相应的输出文本,并且需要在输入和输出之间建立有效的联系。
  1. 自注意力机制(Self-Attention)
    • 原理:自注意力机制指模型能够关注其输入文本的不同部分,计算输入序列中各个位置之间的相关性。在Transformer的编码器和解码器中都使用了自注意力机制。对于输入序列中的每个位置,自注意力机制会计算该位置与其他所有位置的注意力分数,然后根据这些分数对输入进行加权求和,得到该位置的新表示。这样,模型可以在不依赖于顺序处理的情况下,捕捉到输入序列中的长距离依赖关系。
    • 优势:相比RNN的顺序处理方式,自注意力机制能够并行计算,大大提高了计算效率和训练速度。它可以更好地处理长文本序列,因为每个位置都可以直接与其他位置进行交互,而不受序列长度的限制。自注意力机制还能够捕捉到输入序列中的复杂语义关系,提高模型的表示能力。
    • 应用场景:在各种自然语言处理任务中都有广泛应用,如文本分类、命名实体识别、情感分析等,其中需要对输入文本进行深入的语义理解和特征提取。
并行化优势

与RNN不同,Transformer架构具有易于并行化的趋势。RNN由于其顺序处理的特性,每个时刻的计算都依赖于前一时刻的结果,因此难以在多个计算设备上并行计算。而Transformer的自注意力机制允许同时计算输入序列中各个位置的表示,无需顺序处理。这使得Transformer可以充分利用现代计算设备(如GPU)的并行计算能力,大大提高了计算和训练速度。在处理大规模数据和长文本序列时,这种并行化优势尤为明显,可以显著减少训练时间和计算资源的消耗。

编码器和解码器

编码器处理输入文本,识别有价值的特征,生成有意义的文本标识---嵌入

解码器使用嵌入输出

主要组件:编码器和解码器

  1. 编码器(Encoder)
    • 功能与工作原理:编码器的主要作用是处理输入文本,识别其中有价值的特征,并生成有意义的文本标识,即嵌入(Embedding)。编码器由多个相同的层组成,每个层包含两个主要子层:自注意力子层和前馈神经网络子层。在自注意力子层中,输入序列首先通过自注意力机制计算各个位置之间的相关性,得到加权后的表示。然后,这个表示会传递到前馈神经网络子层,进行进一步的非线性变换和特征提取。经过多个层的处理,编码器最终输出输入文本的高级特征表示,这些特征表示包含了输入文本的语义信息和上下文关系。
    • 优势:通过多层的自注意力和前馈神经网络的组合,编码器能够有效地捕捉输入文本的长距离依赖关系和复杂语义特征,为后续的任务提供高质量的特征表示。编码器的并行计算特性使得它能够快速处理大规模的输入文本,提高了模型的训练和推理效率。
    • 应用场景:作为Transformer架构的基础组件,编码器广泛应用于各种自然语言处理任务的特征提取阶段,如机器翻译、文本分类、问答系统等。在这些任务中,编码器的输出会被传递给解码器或其他模块,用于进一步的处理和决策。
  1. 解码器(Decoder)
    • 功能与工作原理:解码器使用编码器生成的嵌入输出,结合交叉注意力机制和自注意力机制,生成目标文本。解码器同样由多个相同的层组成,每个层包含三个子层:自注意力子层、交叉注意力子层和前馈神经网络子层。在自注意力子层中,解码器处理已经生成的部分目标文本,捕捉其内部的依赖关系。然后,在交叉注意力子层中,解码器会关注编码器的输出,找到与当前要生成的目标单词最相关的输入特征。最后,在前馈神经网络子层中,对经过注意力计算的表示进行进一步的变换和处理,生成下一个单词的概率分布。通过不断重复这个过程,解码器逐步生成完整的目标文本。
    • 优势:解码器的设计使得它能够充分利用编码器提供的信息,同时考虑已经生成的目标文本的上下文,生成连贯、准确的输出。交叉注意力机制和自注意力机制的结合,使得解码器能够灵活地处理不同类型的任务和输入输出关系,提高了模型的适应性和生成能力。
    • 应用场景:主要应用于需要生成文本的任务,如机器翻译、文本生成、摘要生成等。在这些任务中,解码器根据编码器提供的输入特征和已经生成的部分目标文本,逐步生成完整的目标文本,实现从输入到输出的转换。

Transformer架构通过引入注意力机制、并行化计算以及独特的编码器-解码器结构,有效地解决了传统RNN在处理长文本序列时的问题,成为了现代自然语言处理领域的核心架构之一,并在多个任务中取得了优异的性能表现。随着技术的不断发展,Transformer架构也在不断演进和扩展,应用于更多的领域和任务中。

生成式预训练(Generative Pre-training Transformer,简称GPT)

是一种基于Transformer架构的模型,它被设计用于自然语言处理任务,如文本生成、翻译和问答。GPT模型的关键特点是它不使用传统的编码器-解码器架构,而是仅依赖于一个解码器堆叠,这使得模型能够生成连贯的文本。

GPT模型的标记化和预测步骤如下:

  1. 标记化(Tokenization)
    • 输入文本首先被分词器(Tokenizer)处理,分词器将文本拆分为更小的单元,称为标记(tokens)。这些标记可以是单词、子词或字符,具体取决于所使用的分词器。
    • 例如,输入文本 "The quick brown fox jumps over the lazy dog" 可能被分词器拆分为 ["The", "quick", "brown", "fox", "jumps", "over", "the", "lazy", "dog"]。
  1. 预测(Prediction)
    • 标记化的输入文本被送入GPT模型。模型通过一系列的自注意力机制(self-attention mechanisms)来处理这些标记,从而捕捉上下文信息。
    • 在自注意力机制中,模型会计算每个标记与其他标记之间的相关性,这有助于模型理解整个句子的上下文。
    • 模型接着会预测下一个标记的概率分布,即在给定前面的文本的情况下,下一个最有可能出现的标记是什么。
    • 这个过程会重复进行,直到生成完整的文本或达到预定的最大长度。
  1. 文本补全(Text Completion)
    • 根据提示词(prompt),模型会生成后续的文本补全。提示词是用户提供的初始文本,模型基于这个提示词开始生成新的内容。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值