大模型面试八股文：2025校招社招大模型（LLM）高频考点全解析-优快云博客

这是一份面向2025年校招/社招的大模型(LLM)面试准备指南，分为六大模块，涵盖Transformer架构、LLM训练流程、MoE架构、推理加速技术、RAG应用、多模态模型等核心内容，并提供了备考建议，帮助求职者全面准备大模型相关面试。

2025大模型面试核心知识体系

我们将内容分为六大模块，由浅入深，层层递进。

模块一：基础核心与Transformer架构

这是所有问题的基石，必须倒背如流。

1. Transformer的核心结构

自注意力机制（Self-Attention）

手写Attention公式：Attention(Q, K, V) = softmax(QK^T / √d_k) V
为什么需要缩放（除以√d_k）？防止点积结果过大，导致softmax梯度消失。
Self-Attention vs. CNN vs. RNN 的优缺点？
CNN：局部感知，并行效率高，但长距离依赖弱。
RNN：序列建模，但并行能力差，易梯度消失/爆炸。
Self-Attention：全局建模，并行度高，但计算和内存复杂度高（O(n²)）。

多头注意力（Multi-Head Attention）

为什么比单头好？允许模型同时关注来自不同位置的不同表示子空间的信息，增强了模型的表达能力。

位置编码（Positional Encoding）

为什么需要？ Transformer本身没有位置信息，需要显式注入。
绝对位置编码（正弦/学习式） vs. 相对位置编码（如RoPE, T5 Bias）：
RoPE（旋转位置编码）：现在是LLM的主流，通过旋转矩阵将位置信息编码到注意力计算中，具有良好的外推性（ extrapolation）。

残差连接（Residual Connection）与层归一化（LayerNorm）

作用：缓解梯度消失，加速训练，稳定网络。

2. LLM的核心训练流程

预训练（Pre-training）：在海量无标注文本上进行自回归（Autoregressive, AR, 如GPT）或自编码（Autoencoding, AE, 如BERT）学习。
有监督微调（SFT, Supervised Fine-Tuning）：在指令数据上微调，教会模型遵循指令。
奖励模型训练（Reward Modeling, RM）：训练一个模型来评判回答的好坏（偏人类偏好）。
强化学习优化（RLHF, Reinforcement Learning from Human Feedback）
核心思想：使用RM作为奖励信号，用PPO等强化学习算法进一步优化SFT模型，使其输出更符合人类偏好。
PPO（Proximal Policy Optimization）的作用：在策略更新时避免太大的步幅，保证训练稳定性。
DPO（Direct Preference Optimization）
为什么出现？绕过了训练不稳定的RM模型和复杂的PPO步骤，直接在偏好数据上优化策略，更简单更稳定。是2024-2025年的重点。

模块二：模型架构演进与高效化

1. 主流大模型架构

仅解码器（Decoder-Only）：如GPT系列、LLaMA。当前生成式LLM的绝对主流。
编码器-解码器（Encoder-Decoder）：如T5、BART。适合条件生成任务（如翻译、摘要）。
前缀解码器（Prefix Decoder）：如GLM。统一了AR和AE的思想。

2. 核心演进技术

SwiGLU / GELU 激活函数：相比ReLU效果更好，成为LLM标配。
RMSNorm：简化了LayerNorm，去除了均值中心化，效果相当但计算更高效。
Flash Attention
原理：通过分块计算和在线softmax技巧，将显存复杂度从O(n²)降低到O(n)，极大加速了Attention计算并节省显存。必考。

3. 高效参数模型：MoE (Mixture of Experts)

核心思想：将大模型分解为多个“专家”（小FFN），每个Token由门控网络（Gating Network）选择少数几个专家（如Top-2）进行计算。
优势：在极大增加参数量（如万亿）的同时，保持计算量（FLOPs）和推理速度与稠密模型相近（如Mixtral 8x7B）。
挑战：专家负载均衡、训练稳定性、通信开销。这是2025年面试的重中之重。

模块三：推理与性能优化

1. 推理加速技术

解码策略：

Greedy Search：贪心，简单但容易重复。
Beam Search：集束搜索，保留多个候选，适合目标明确的生成（如翻译）。
Sampling（采样）：
Temperature：控制随机性。T->0接近贪心，T->1更随机。
Top-k / Top-p (Nucleus) Sampling：从最可能的k个或累积概率达到p的token中采样，保证质量的同时增加多样性。

KV Cache

是什么？在生成过程中缓存当前序列之前所有位置的Key和Value，避免重复计算。
为什么能加速？将生成过程的复杂度从O(n³)降低到O(n²)。
代价：需要额外显存（Sequence Length * Batch Size * Num Layers * Hidden Size * 2）。

2. 模型量化（Quantization）

目的：将FP16/BF16的模型权重和激活值转换为低精度（如INT8/INT4/FP8），减少显存占用和加速推理。
常见方法：
训练后量化（PTQ）：简单快速，但可能有精度损失。
量化感知训练（QAT）：在训练中模拟量化过程，获得更高精度。

AWQ vs. GPTQ：

GPTQ：一种高效的PTQ方法，逐层对权重进行量化校准。
AWQ：认为“权重并非同等重要”，通过激活值来寻找并保护那些重要的权重（Salient Weights），在不增加计算量的前提下获得更好效果。

3. 其他优化技术

投机采样（Speculative Sampling）：用小模型（Draft Model）先草拟生成多个token，再用大模型（Target Model）一次性验证，加速效果明显。
模型剪枝（Pruning）：移除不重要的权重或神经元。

模块四：应用与生态

1. 大模型应用范式（Patterns）
零样本（Zero-Shot）：直接给指令，不提供例子。
少样本（Few-Shot） / 上下文学习（In-Context Learning, ICL）：在Prompt中提供几个例子作为示范。思考：ICL为什么有效？
思维链（Chain-of-Thought, CoT）：通过Prompt引导模型一步步推理，显著提升复杂问题解决能力。