LLM_chunmiao3032的博客-优快云博客

LLM

关注

关注数：文章数：10 文章阅读量：7515 文章收藏量：12

作者: chunmiao3032

人生一年又一年,只要每年都有所积累,有所成长,都有那么一次自己认为满意的花开时刻就好。即使一时不顺,也要敞开胸怀。生命的荣枯并不是简单的重复,一时的得失不是成败的尺度。花开不是荣耀,而是一个美丽的结束,花谢也不是耻辱,而是一个低调的开始。

展开

BERT和ChatGPT简单对比

相比之下，ChatGPT是一个基于GPT（Generative Pretrained Transformers）的语言生成模型，它是设计用于对话应用的。GPT是一个生成模型，可以生成逼真的人类文本。总的来说，BERT和ChatGPT各自都擅长处理特定类型的NLP任务，因此你可以根据自己的需求选择其中的一个模型。BERT和ChatGPT都是由人工智能研究实验室OpenAI开发的语言处理模型，但它们在设计和用途上存在不同的特点，因此很难直接比较哪一个更好。这主要取决于你打算如何使用这些模型。

原创 2023-11-08 16:12:53 · 2222 阅读 · 0 评论
Seq2Seq架构，即Sequence-to-Sequence

编码器（Encoder）：首先，编码器会读取输入的英文句子，就像我们阅读英文一样，从左到右逐词阅读。当读完整个句子后，编码器会生成一个向量，这个向量可以看作是对整个英文句子含义的一个总结，我们称之为“上下文向量”。比如机器翻译中，输入是一种语言的句子（序列），输出是另一种语言的句子（也是序列）。解码器（Decoder）：然后，解码器会接收这个向量，并尝试将其“翻译”成中文。总地来说，Seq2Seq模型就像一个会多国语言的翻译员，它通过编码器理解源语言句子的含义，然后通过解码器将这个含义表达在目标语言中。

原创 2023-11-08 10:13:38 · 224 阅读 · 0 评论
理解Multi-head Self Attention（多头自注意力）模型

在自注意力机制中，每个单词会生成一个“注意力向量”，它表示了这个单词和其他单词的关联程度。而在多头自注意力中，我们不只计算一次注意力向量，而是会计算多次，每次计算都使用不同的“头”，也就是不同的参数。比如在处理 "我喜欢你" 这句话时，我们可能用一个头特别关注 "我"，另一个头特别关注 "你"。自注意力机制是一种让模型在处理一个单词时，能同时考虑到句子中其他单词的信息的方法。比如在翻译 "我喜欢你" 这句话时，处理 "喜欢" 这个词时，模型也会考虑到 "我" 和 "你" 的信息。

原创 2023-11-07 17:36:06 · 373 阅读 · 0 评论
Transformer和ELMo模型、word2vec、独热编码（one-hot编码）之间的关系

Transformer是一种基于自注意力（self-attention）机制的深度学习模型，它摒弃了循环神经网络（如LSTM）和卷积神经网络（如CNN），提供了一种全新的网络结构，可以并行处理序列数据。它与ELMo、Transformer的关系是，它们都试图学习词的向量表示，但Word2Vec是静态的，即每个词只有一个向量表示，不能捕捉一词多义现象。它与ELMo、word2vec和Transformer的关系是，它们都是用于表示词的方法，但相较于其他方法，独热编码无法捕捉词之间的相似性和上下文信息。

原创 2023-11-07 16:22:41 · 670 阅读 · 0 评论
ELMo模型、word2vec、独热编码（one-hot编码）的优缺点进行对比

总结：独热编码适用于简单场景，但缺乏表达词之间相似性的能力。Word2Vec通过稠密向量表示词义，能够体现词之间的相似性，但无法处理一词多义现象。ELMo通过为词生成动态词向量，能够根据上下文调整词义，但计算复杂度较高。在实际应用中，可以根据问题的复杂度和需求选择合适的词表示方法。

原创 2023-11-07 16:18:36 · 944 阅读 · 0 评论
注意力机制中，大模型是如何确定输入中的哪些信息是关键信息并记录到上下文中

就像我们人类在读一段文字时，自然而然会对一些词语、句子给予更多的关注，机器学习模型也会通过计算每个部分的"重要性分数"，来确定哪些部分应该被赋予更多的注意力。计算出这些分数之后，模型就可以根据这些分数来生成上下文向量，包含了最重要的信息。然而，这个过程并非完全确定的，不同的模型、不同的任务，甚至是对同一任务的不同训练，都可能导致模型关注的信息有所不同。例如，对于机器翻译任务，模型可能学会在翻译一个长句子时，将更多的注意力集中在句子中的主语或动词上，因为这些词通常包含了句子的主要信息。

原创 2023-11-07 14:38:31 · 181 阅读 · 0 评论
注意力机制和上下文向量（Context Vector）怎么理解

回到机器翻译的例子，当模型尝试生成目标语言的句子中的每个词时，它会查看输入句子中的每个词，并根据这些词的重要性（即"注意力"）来分配权重。在阅读书籍的例子中，你可能会记住你读过的关键句子，或者写下你觉得重要的想法，这些都可以看作是"上下文"信息。以机器翻译为例，当我们试图将一句话从语言A翻译成语言B时，我们不是一次性看完整个句子然后翻译，而是先看句子的一部分，理解它的含义，然后进行翻译，然后再移动到下一部分。在这个过程中，我们的大脑会对句子中的每个部分给予不同的"注意力"，这就是注意力机制的工作方式。

原创 2023-11-07 14:25:38 · 1861 阅读 · 0 评论
RNN和注意力机制是啥关系

举个例子，如果我们正在处理一个机器翻译的任务，我们的输入是一个句子，我们的目标是生成一个相同意思的句子，但是在另一种语言中。在这种情况下，注意力机制可以帮助模型理解在翻译每个单词或短语时，应该从原始句子中的哪些部分获取信息。就像我们在阅读一段文本时，我们会集中精力（即“注意力”）在我们认为最重要的部分，而忽略不太重要的部分。在RNN中使用注意力机制，可以让模型对输入序列的每一个元素分配不同的“注意力权重”。RNN（循环神经网络）和注意力机制是两种不同的深度学习结构，但是它们可以一起使用以提高模型的效果。

原创 2023-11-07 14:08:41 · 408 阅读 · 0 评论
如何理解Encoder-decoder结合注意力机制的架构

在Encoder-Decoder结构中，注意力机制是通过一个额外的注意力网络实现的。注意力机制让模型可以选择性地关注输入的某个部分，而不是一次性处理所有的输入。在生成每一句字幕时，大脑（或模型）会集中注意力在当前的对话上，而忽略其他对话。这使得模型可以更有效地处理长序列，并提高了生成的字幕的准确性。在这个例子里，电影的对话就像输入，字幕就像输出。你的大脑就像一个Encoder-Decoder模型，试图理解电影中的对话并生成相应的字幕。相反，它会一句一句地处理对话，为每一句对话生成相应的字幕。

原创 2023-11-07 13:42:39 · 203 阅读 · 0 评论
作为一个前后端程序员，如何理解大模型的Encodeer-decoder架构

编码器（Encoder）：编码器的任务是处理输入数据（例如，一段文本），并将其转换为一种内部表示形式，通常被称为“上下文向量”或“隐藏状态”。一个简单的类比是：编码器是一个翻译员，它将一种语言（输入数据）翻译为另一种他自己才懂的语言（内部表示形式）。然后，解码器是另一个翻译员，它能理解编码器的语言，并将其翻译为我们想要的语言（输出数据）。总的来说，Encoder-Decoder架构就是将一个复杂的问题（理解输入并生成输出）分解为两个更简单的子问题：理解输入（编码）和生成输出（解码）。

原创 2023-11-07 13:35:09 · 437 阅读 · 0 评论

LLM

作者: chunmiao3032

BERT和ChatGPT简单对比

Seq2Seq架构，即Sequence-to-Sequence

理解Multi-head Self Attention（多头自注意力）模型

Transformer和ELMo模型、word2vec、独热编码（one-hot编码）之间的关系

ELMo模型、word2vec、独热编码（one-hot编码）的优缺点进行对比

注意力机制中，大模型是如何确定输入中的哪些信息是关键信息并记录到上下文中

注意力机制和上下文向量（Context Vector）怎么理解

RNN和注意力机制是啥关系

如何理解Encoder-decoder结合注意力机制的架构

作为一个前后端程序员，如何理解大模型的Encodeer-decoder架构