【无标题】

原创已于 2025-08-28 15:42:46 修改 · 674 阅读

15 ·

CC 4.0 BY-SA版权

文章标签：

#算法 #人工智能 #机器学习

于 2025-08-27 15:16:39 首次发布

大模型八股文专栏收录该内容

34 篇文章

订阅专栏

1、Self-Attention机制：自注意力机制中 Q,K,V矩阵的作用是什么?如何通过缩放点积计算注意力权重?公式推导并解释Softmax 的意义。

答：Query 查表，Key 建索引，Value 给答案；用 √d_k 缩放后做 softmax 得权重，再对 Value 加权求和。

Softmax 意义：把任意实数矩阵 → 行和为 1 的概率分布，实现“归一化权重”与“可导稀疏”。

2、位置编码：Transformer为何需要位置编码?主流 LLM(如 LLaMA、GPT)使用哪种位置编码(如 ROPE)?相比绝对/相对位置编码有何优势?

答：（1）transformer为什么需要位置编码

自注意力机制的工作原理：它通过计算查询（Query）和键（Key）之间的相似度来为每个词分配注意力权重。这个过程像是一个“词与词之间的匹配”，完全不依赖于词在序列中的具体位置。
一个简单的例子：考虑两个句子：
- “我喜欢吃苹果”（I like to eat apples）
- “苹果喜欢吃我”（Apples like to eat me）
  对于自注意力模型来说，如果不提供位置信息，它看到的“苹果”和“吃”这两个词之间的关系在两句中是完全一样的。它无法区分第一个“苹果”是宾语，而第二个“苹果”是主语。模型会认为这两个序列是等价的，从而无法理解其截然不同的含义。
因此，位置编码的作用就是向模型注入序列中词汇的绝对或相对位置信息，使模型能够理解顺序和距离，这对于理解语言的语法、语义和逻辑至关重要。

Transformer的自注意力机制本身是“位置无关”的（Permutation Invariant）。

（2）目前大语言模型使用什么位置编码方式

目前，旋转位置编码（RoPE, Rotary Position Embedding） 是绝对的主流选择。

LLaMA 系列 (LLaMA, LLaMA 2)：使用 RoPE。
GPT 系列：从 GPT-3 开始，OpenAI 就转而使用 RoPE。之前的 GPT-1 和 GPT-2 使用的是学习式的绝对位置编码。
其他主流模型：如 PaLM、ChatGLM、Falcon 等绝大多数开源和闭源大模型都采用了 RoPE。

可以说，RoPE 已经成为当今大语言模型位置编码的事实标准。

（3）RoPE相比绝对/相对位置编码有何优势？

为了更好地理解RoPE的优势，我们先快速回顾一下它的前身：

绝对位置编码（Absolute PE）：如原始Transformer中的正弦编码或可学习编码。它为每个位置生成一个固定的向量，然后直接与词向量相加。
- 缺点：外推性（Extrapolation）差。模型在训练时只见过长度为512的序列，那么在推理时如果遇到超过512的序列，其性能会急剧下降。并且，直接相加的方式可能会干扰词向量本身的信息。
经典相对位置编码（Relative PE）：如T5模型采用的编码方式。它不再关注每个词的绝对位置，而是关注词与词之间的相对距离（如“相距3个词”）。
- 优点：能更好地捕捉序列内部的结构关系，外推性比绝对位置编码稍好。
- 缺点：实现相对复杂，需要在注意力计算公式中额外引入相对位置偏置项，计算效率和显存占用上不是最优。

RoPE的优势：

RoPE的巧妙之处在于，它通过旋转矩阵的方式，将绝对位置信息以相乘（而非相加）的方式融入查询（Query）和键（Key）向量中，从而间接地实现了相对位置信息的编码。

其核心优势体现在：

出色的外推性（Excellent Extrapolation）
这是RoPE最引人注目的优势。模型即使在较短的序列（如2048）上训练，也往往能处理远长于训练长度的序列（如16K，甚至100K+），虽然性能会缓慢下降，但不会完全崩溃。这使得LLM的应用范围大大扩展（长文档处理、长对话等）。
随着距离增加，位置编码的依赖性会衰减
RoPE通过旋转产生的交互是距离的函数。两个token距离越远，它们向量之间的“夹角”旋转差异就越大，点积后的注意力分数自然会衰减，这符合自然语言中“临近词关联更紧密”的先验知识。
更好的理论 foundation 和数学美感
RoPE的推导基于复数空间中的旋转不变性，形式优雅且坚固。它将位置信息通过旋转操作与词向量本身深度融合，而不是简单粗暴地相加，减少了对原始词信息的干扰。
计算高效
RoPE的计算可以高效地集成到注意力机制的计算过程中，不需要修改注意力公式的结构（不像经典相对位置编码需要加一堆偏置项），对计算和显存友好。

特性	绝对位置编码 (原始Transformer)	经典相对位置编码 (如T5)	旋转位置编码 (RoPE)
核心思想	为每个位置分配一个唯一编码	编码词对之间的相对距离	通过旋转矩阵注入绝对位置，实现相对位置
外推性	差	一般	优秀
实现复杂度	简单	复杂	中等
主流应用	GPT-1, GPT-2, BERT	T5	LLaMA, GPT-3/4, PaLM, 等绝大多数SOTA LLM

3、Seq2Seq模型的核心组件是什么?Encoder-Decoder结构如何解决长程依赖问题?

（1）Seq2Seq模型的核心设计目标是处理输入和输出都是长度可变的序列的任务，比如机器翻译、文本摘要、语音识别等。

其最核心的组件是三个：

编码器（Encoder）
解码器（Decoder）
上下文向量（Context Vector）

输入序列 ("A B C")  -> [编码器] -> 上下文向量 -> [解码器] -> 输出序列 ("X Y Z")
        (编码过程)          (信息瓶颈)         (解码过程)

（2）Encoder-Decoder结构如何解决长程依赖问题?

原始的、使用普通RNN（如Simple RNN）的Encoder-Decoder结构并不能很好地解决长程依赖问题。它存在一个致命的缺陷，即信息瓶颈（Information Bottleneck）。

为了真正解决长程依赖问题，研究者们在Encoder-Decoder结构上引入了注意力机制，形成了Attention-based Encoder-Decoder模型，这成为了现代Seq2Seq任务的标配。

注意力机制的优势：

解决了信息瓶颈：解码器在每一步都可以直接访问所有输入隐藏状态，而无需将它们压缩到一个向量中。
动态聚焦：模型学会了在输出序列的每个位置选择性地聚焦在输入序列中最相关的部分。例如，在翻译时，生成下一个中文词时，模型会自动“回头看”最相关的英文词。
极大改善了长程依赖：无论输入词在序列的开头还是结尾，解码器在需要时都能通过注意力权重直接获取它的信息，距离不再是一个主要问题。
可解释性：通过观察注意力权重的分布，我们可以直观地看到模型在生成输出时关注了输入的哪些部分，就像一种“对齐”（Alignment）。

（3）为什么现在普遍选择decoder-only而不选择encoder-only

架构	工作原理	设计目标	类比
Encoder-only (e.g., BERT)	双向注意力：在处理一个词时，会同时关注这个词左右两边的所有上下文。	理解语言：完美地理解一句话的深层含义。擅长分类、情感分析、实体识别、问答（从文中找答案）。	****Cloze Test（完形填空）专家。给你一个句子“I want to ____ the market because I need some vegetables”，它能利用前后文完美预测 `[MASK]` 的位置应该填 `go to`。
Decoder-only (e.g., GPT)	单向注意力（因果掩码）：在生成一个词时，只能关注它之前（左边）的词汇。看不到未来的信息。	生成语言：根据已有的上文，预测下一个最可能的词，循环往复从而生成连贯的文本。	Autoregressive（自回归）预测专家。给你开头“I want to”，它预测下一个词是“go”，然后基于“I want to go”预测下一个词是“to”，如此循环生成“I want to go to the market...”。

decoder-only的优势

4、RAG(检索增强生成)的完整链路包含哪些步骤?为什么它能提升生成质量?

（1)RAG步骤

RAG的流程可以清晰地划分为三个主要阶段：索引（Indexing）、检索（Retrieval） 和 生成（Generation）。其中索引阶段是离线的预处理，而检索和生成是在线响应用户查询的实时步骤。

阶段一：索引（Indexing）- 离线准备

这是数据准备的预处理阶段，通常在用户查询发生之前完成。

数据加载（Data Loading）：从各种数据源（如公司内部Wiki、PDF文档、数据库、API等）收集和提取原始数据。
分割（Splitting）：将长文档分割成更小的、易于管理的“块”（Chunks）。这是因为检索时通常不需要整篇文档，而是最相关的几个段落。块的大小是RAG系统的一个重要超参数。
向量化（Embedding）：使用嵌入模型（Embedding Model）（如OpenAI的text-embedding-ada-002、BGE、M3E等）将每个文本块转换为一个高维数值向量（即向量嵌入）。这个向量表征了文本的语义信息。
存储（Storage）：将这些向量及其对应的原始文本块存储到一个专门的向量数据库（Vector Database）（如Chroma、Pinecone、Weaviate、Milvus等）中。向量数据库支持高效的相似性搜索。

阶段二：检索（Retrieval）- 在线响应

当用户提交一个查询（Query）时，系统执行以下步骤：

查询向量化（Query Embedding）：使用与索引阶段相同的嵌入模型将用户的查询也转换为一个向量。
相似性搜索（Similarity Search）：在向量数据库中，执行“相似性搜索”（通常使用余弦相似度、点积等度量方法），寻找与“查询向量”最相似的前k个向量（即最相关的文本块）。
后处理（Optional Post-processing）：在某些高级RAG系统中，可能还会对检索到的结果进行进一步处理，例如：重新排序（Re-ranking）以找到质量最高的块，或合并多个相关块。

阶段三：生成（Generation）- 在线响应

这是LLM发挥作用的阶段。

构建增强提示（Augmented Prompt Construction）：将用户原始查询和检索到的相关文本块（作为上下文） 组合成一个新的、信息丰富的提示（Prompt）。模板通常如下：

“请基于以下上下文回答问题：
[这里插入检索到的相关文本块]

问题：[这里插入用户查询]

回答：”
LLM生成答案（LLM Generation）：将这个增强后的提示发送给大语言模型（如GPT-4、LLaMA 2等）。LLM基于提供的权威上下文（而不是仅凭其内部知识）来生成最终答案。
返回答案（Return Answer）：将LLM生成的答案返回给用户。

（2）为什么RAG能提升生成质量？

RAG通过一种“扬长避短”的策略，从根本上弥补了纯LLM的几大缺陷，从而显著提升了生成质量、可靠性和可用性。

对比维度	纯LLM (如ChatGPT)	RAG 系统	RAG的优势体现
知识时效性	依赖于训练时的数据快照，知识陈旧。	知识可实时更新。只需更新向量数据库，模型就能获取最新信息。	解决了幻觉（Hallucination）中的“过时知识”问题，让答案更准确、及时。
事实准确性	依赖参数记忆，可能产生“幻觉”，编造看似合理但错误的信息。	grounding in Truth。答案源于提供的权威外部知识源，而非纯粹凭空生成。	极大减少了事实性错误，答案更具事实依据（Factual）和可信度（Verifiable）。用户可追溯来源。
领域适应性	通用性强，但缺乏特定领域/企业的深度知识，回答可能流于表面。	深度领域专家。可以为LLM“注入”任何特定的专业知识（如公司手册、医疗文献）。	使通用LLM瞬间变成领域专家，回答更专业、深入。
透明度与可信度	“黑箱”操作，无法提供答案的来源依据。	提供引用来源（Citatations）。可以标注答案源自哪份文档的哪个段落。	增强了答案的可验证性和透明度，建立了用户信任。
成本与效率	为了学习新知识需要重新预训练或微调，成本极高、耗时漫长。	外部知识库更新成本极低、速度极快，无需改动LLM本身

5、大模型产生幻觉的根本原因是什么?

大模型“幻觉”（Hallucination）是指模型生成的内容看似流畅合理，但实际上与输入源（如果提供了的话）或既成事实不符，包含了不真实、错误或荒谬的信息。

大模型产生幻觉的根本原因：它的设计目标是生成概率上合理（Plausible） 的文本，而非事实上正确（True） 的文本。当前所有的技术手段，如RAG、提示工程、模型微调等，都是在试图“约束”和“引导”这个强大的概率机器，让它更偏向于输出真实的内容。

6、如何计算模型会占用多少显存。显存与参数量、批次大小、序列长度的关系

如何根据把本地服务器计算模型大小（推理）

例如：7b模型 fb16（每个参数占2个字节）

总权重大小 = 参数数量 × 每个参数的字节数
= 7 × 10^9 × 2 Bytes = 14 GB

训练的话至少需要100多G

因素	对显存占用的影响	训练	推理
参数量 (Params)	线性正相关。模型越大，存储权重、优化器状态、梯度的基础开销就越大。这是最主要的因素。	✅ 巨大影响	✅ 巨大影响
批次大小 (Batch Size)	线性正相关。更大的批次意味着更多的样本需要同时处理，导致激活值（训练）和KV Cache（推理）线性增长。	✅ 巨大影响	✅ 巨大影响
序列长度 (Seq Length)	线性正相关。更长的序列意味着每个样本的计算量更大，需要保存的激活值（训练）和KV Cache（推理）也线性增长。	✅ 巨大影响	✅ 巨大影响
精度 (Precision)	关键影响。使用FP32（4字节）比FP16/BF16（2字节）占用翻倍。使用INT8/INT4量化可以显著减少模型权重的占用。	✅ 影响	✅ 巨大影响