LLM和VLM算法常见面试题

最新推荐文章于 2025-02-15 10:49:38 发布

「已注销」

最新推荐文章于 2025-02-15 10:49:38 发布

阅读量1.2k

点赞数 23

CC 4.0 BY-SA版权

文章标签：人工智能深度学习算法

本文链接：https://blog.youkuaiyun.com/LIN2020LOVEDA/article/details/141473797

LLM相关问题：

模型架构：Bert是基于Transformer架构的模型，它是一个预训练的双向编码器。GPT也是基于Transformer的模型，但它是一个预训练的单向解码器。
预训练任务：Bert的预训练任务是“掩盖语言模型”，即在给定句子中，随机掩盖一些词，然后任务是预测这些被掩盖的词。GPT的预训练任务是“语言建模”，即给定上下文，任务是预测下一个词。
上下文理解：Bert是一个双向模型，它可以同时考虑到给定词的上下文信息。这对于许多NLP任务来说是非常有用的，如问答和文本分类。GPT是一个单向模型，它只能根据前面的文本来预测下一个词，无法考虑后面的文本。
微调任务：Bert在进行微调时，常用于多种任务，如文本分类、命名实体识别和语义相似性等。GPT则更适合于生成型任务，如文本生成、对话系统和机器翻译。

输入表示：LLaMA将输入的对话转换为一个向量序列，以便于模型的处理。首先，将所有的对话文本通过词嵌入层转换为固定维度的向量表示。然后，将这些向量表示输入到一个位置编码层，这个编码层可以为每个单词添加位置信息，以保留单词的顺序关系。
消息传递：LLaMA使用Transformer框架来进行消息传递。Transformer是一种基于自注意力机制的模型，其可以捕捉输入序列中不同位置之间的依赖关系。LLaMA中的Transformer由多个编码器组成，每个编码器由自注意力层和前馈神经网络层组成。自注意力层可以对输入序列中的不同位置进行关注，以确定不同单词之间的重要性。前馈神经网络层可以对自注意力层的输出进行进一步处理，以获得更高级的特征表示。

输出生成：LLaMA使用一个线性层将每个代理的隐层表示映射回单词空间，以生成每个代理的回复。同时，LLaMA还使用注意力权重来确定回复中对其他代理的关注程度。在生成下一个单词时，LLaMA使用一个注意力机制来自动选择其他代理的部分表示作为上下文信息。

归一化原理：
- RMSNorm：RMSNorm使用了均方根作为归一化的指标，计算每个样本的均方根，并将其作为归一化的缩放系数。RMSNorm在某种程度上保留了样本的原始总体分布。
- LayerNorm：LayerNorm计算每个样本在同一层内的均值和方差，并对每个样本的特征进行标准化处理。LayerNorm将样本看作是同一个层内的若干个特征的集合，忽略了样本在总体上的分布情况。
归一化过程：
- RMSNorm：RMSNorm的归一化过程较为简单，直接计算每个样本的均方根，然后用其作为归一化的缩放系数，将样本特征除以该值。
- LayerNorm：LayerNorm的归一化过程较为复杂，需要计算每个样本在同一层内的均值和方差，并对每个样本的特征进行标准化处理。
归一化效果：
- RMSNorm：RMSNorm在一定程度上保留了样本的原始总体分布，可以有效地减少内部协变量位移问题，并提高模型的泛化能力。
- LayerNorm：LayerNorm将每个样本看作是同一层内的若干个特征的集合，并将其标准化处理，可以减少样本之间的差异，提高模型的鲁棒性。
应用领域：
- RMSNorm：RMSNorm主要应用于图像生成、语音合成等领域，适用于处理具有多模态特征的数据。
- LayerNorm：LayerNorm主要应用于自然语言处理、视觉任务等领域，适用于处理较为复杂的非线性结构数据。