分享一些大厂的大模型面试题（非常详细）从零基础到精通，收藏这篇就够了！

最新推荐文章于 2025-11-17 09:56:57 发布

原创最新推荐文章于 2025-11-17 09:56:57 发布 · 961 阅读

15 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能 #AIGC

部署运行你感兴趣的模型镜像

腾讯混元大模型面试，差点跪了…

是时候准备实习和面试了。

不同以往的是，当前职场已不再是那个双向奔赴时代了。求职者在变多，HC 在变少，岗位要求还更高了。

最近，我们又陆续整理了很多大厂的面试题，分享技术面试中的那些弯弯绕绕。

1. 简要介绍你了解的一两个大模型，并分析它们的区别？

答：我了解的两个大模型是 Qwen 和 DeepSeek。

以下是二者的对比：

开发商：Qwen 由阿里巴巴达摩院开发
DeepSeek 由深度求索科技（DeepSeek）开发

模型类型与效率：

DeepSeek 系列主打混合专家架构（MoE），通过在推理时动态选择子模块专家提升效率，且强调低训练成本设计，适合资源受限场景。
Qwen系列则采用传统的稠密模型架构，侧重于资源效率优化，尤其在小参数规模下（如32B）保持高性能，更适合端侧部署。

推理能力强化：

DeepSeek-R1 通过自我进化策略（如长链思维蒸馏）提升复杂逻辑推理能力，在数学、编程等任务中表现突出。
Qwen则通过领域知识蒸馏增强垂直领域适应性，例如在医学问答（Clinical Chemistry MCQs）中准确率超过人类专家。

模型规模：

DeepSeek 模型主打 671B 参数的混合专家架构，有 72B、32B、7B、8B 的蒸馏版本。
Qwen 模型规模较小且尺寸更为全面，原生支持 0.5B、1.5B、7B、14B、32B、72B 等版本，从 Qwen3 开始推出 235B 版本。

开源策略：

DeepSeek推行全栈开源，覆盖基础模型、蒸馏版本和部署工具链，且 API 调用成本仅为 GPT-4 的 1/30。
Qwen 采用部分开源策略，仅开放基础模型权重，高级功能（如领域适配模块）需商业授权。

2. 为什么大家都开始探索 MoE 架构？MoE 相比 Dense 有什么好处？

答：核心原因是因为基于 MoE 架构的模型，如 Deepseek 等表现出先进的性能，具体来说：

动态计算分配机制：MoE 通过路由器网络（Router）动态选择每个输入 token 激活的专家集合，仅需激活部分参数（如 DeepSeek-V3 激活 37B 参数，占总量 671B 的 5.5%），实现计算效率与模型规模解耦。

相较密集模型全参数激活的模式，MoE 的 FLOPs 可降低至传统架构的 30% 以下。

细粒度专家分割：DeepSeekMoE 等创新架构将单个专家分割为多个细粒度子专家（如将 FFN 隐藏维度拆分），通过组合式激活提升知识表达的灵活性。实验显示，32 个子专家配置可使模型在数学推理任务中的准确率提升 18%。

共享专家隔离技术：保留部分专家作为共享知识库（如 DeepSeekMoE 隔离 15% 共享专家），既降低参数冗余度，又增强跨领域知识迁移能力。在医疗问答测试中，该技术使模型准确率从 91% 提升至 94%。

3. Qwen LoRA 微调和全参微调的性能差距？

答：Qwen 模型的全参数微调与 LoRA 的性能差异呈现任务依赖性和参数规模敏感性特征。

在结构化生成任务（编程、翻译）中，LoRA 性能可达全参数微调的 92%-97%。

在非结构化逻辑推理（数学证明、临床诊断）中，LoRA 性能差距扩大至全参数的 70%-85%。

对于长文本连续理解（多轮对话、学术写作），LoRA 在主题一致性指标上落后全参数微调 10% 以上。

4. 大模型训练和推理的流程？SFT 和 RLHF 的作用分别是什么？

答：训练流程：预训练+（有监督）微调+对齐。

预训练阶段：基于海量无标注数据（如互联网文本、多模态数据）进行自监督学习，通过语言建模（LM）、对比学习等任务建立通用表征能力。典型参数规模为千亿至万亿级别，需千卡级 GPU 集群训练数月。

监督微调（SFT）阶段：使用标注数据（如领域问答、指令遵循）调整模型参数，使其适配下游任务。SFT 阶段仅需 0.1%-1% 的预训练数据量即可显著提升特定任务性能。

强化学习对齐（RLHF）阶段：通过人类偏好数据训练奖励模型（Reward Model），指导大模型生成符合伦理和安全规范的内容。此阶段可将有害输出率降低 54%-78%。

5. 在 RLHF 中，目前主流的强化学习算法有哪几个？写一下损失函数表达式

直接偏好优化（DPO）：

以下三个直接参考 DAPO 原文，文中都给出了总结：

近端偏好优化（PPO）：

组相关偏好优化（GRPO）：

解耦裁剪和动态采样策略优化（DAPO）：

6. Deepspeed ZeRO-1，ZeRO-2，ZeR0-3 三个模式的区别是什么？

Huggingface 贴出的这张图记住就 OK 了，地址在：

https://huggingface.co/docs/trl/deepspeed_integration

ZeRO-1：只把优化器参数平均分配到各个 GPU 上，每个 GPU 上仍然完整保存一份模型参数和梯度。

ZeRO-2：把优化器参数和梯度平均分配到各个 GPU 上，但每个 GPU 上仍然完整保存一份模型参数。

ZeRO-3：把优化器参数+梯度+模型参数都平均分配到各个 GPU 上。

7. 用 DeepSpeed ZeRO-3来微调 Qwen2-72B，每一张卡占用的显存大概是多少，估算一下为什么是占这么多的显存？

基本思路：大模型训练的显存开销主要用于存储模型参数、梯度，优化器状态，以及激活值，其中模型参数、梯度，以及激活值通常均为 fp16 格式，而优化器状态必须是 fp32 格式。

由于激活值与批大小、序列长度等因素有关，需要单独考虑。但是模型参数、梯度，以及优化器状态占用的显存是固定的，分别占用 2x、2x，以及 12x 模型参数量的显存。即训练的显存开销至少是 16x 模型参数量（以 GB 为单位）。

显存占用估算（8 卡场景）：

总结：

模型参数占用显存 = 参数量 × 2 GB（fp 16）

梯度占用显存 = 参数量 × 2 GB（fp 16） - 优化器状态占用显存 = 参数量 × 12 GB（fp 32）

（Adam）优化器状态包括参数备份、动量、方差三个部分，均为 fp 32 格式

实际场景：若启用 CPU/NVMe 卸载（如 offload_optimizer=cpu），每卡显存可进一步降至 15–18 GB。

8. 除了 DeepSpeed，还有什么其他的大模型训练优化方法？

混合精度训练：使用混合精度训练，保存 FP32 格式的权重副本，FP16 仅用于计算。

过程为：FP16 前向/反向计算 -> FP16 梯度 -> 转换为 FP32 -> 更新 FP32 权重副本 -> 同步至 FP16 副本。

模型并行、数据并行、混合并行（包括模型并行：（张量并行/流水线并行）+数据并行，3D 并行：数据并行+张量并行+流水线并行）

梯度累积：通过多次前向传播后再进行一次反向传播，减少显存占用。

激活检查点：激活值指神经网络中每一层输出的中间结果，即输入数据经权重计算后通过激活函数生成的输出值，计算梯度需基于前向传播的激活值。

梯度检查点（Gradient Checkpointing）核心思想：时间换空间，仅存储部分层的激活值（称为检查点），其余层在反向传播时临时重算。

激活检查点的实现步骤如下：

前向传播：

正常计算所有层输出
仅保存检查点层的输入和输出，其余激活值丢弃

反向传播：

从最近检查点重新前向计算该区段激活值
基于临时激活值计算局部梯度
完成后丢弃临时数据

9. LoRA 微调的原理，A和B两个矩阵怎么初始化？

初始化方法：

10. 介绍 RLHF

人工反馈的强化学习（RLHF）一共 3 个步骤：

（1）有监督微调，通常是指令微调

（2）训练奖励模型：

生成候选回答：SFT 模型针对同一提示生成多个候选回答.

训练奖励模型：标注员对 K 候选回答（K=4 或 K=9）的质量进行排序，然后构造出交叉熵损失来训练奖励模型，每次给奖励模型两个候选回答，要求它对优质回答的打分要比劣质回答更高。

（3）强化学习：虽然使用了 PPO 算法，但也不是标准的 PPO，做出了三点改进：

将原版 PPO Token 级别的奖励替换为了句子级别的奖励
引入了 KL 正则项，以防止奖励模型的过度优化
加入有监督损失项，以确保模型在公开 NLP 数据集上的性能回归

11. 在做对齐的时候，为什么 SFT 之后还要做 RLHF，只用 SFT 可以吗？

答：SFT 之后接 RLHF 是因为 SFT 仅确保了模型的语言生成能力，却不能保证生成的内容符合人类的道德和价值观。

通常不能用 SFT 来实现对齐，主要有以下两方面的原因：

学习目标不匹配：SFT 的学习目标是（理想情况下）让模型以 100% 的概率生成正确答案，而我们对大模型输出的预期是生成人类偏好的回答，二者目标不一致。

SFT 的局限性：

SFT 只能让模型学会什么是好的回答（只知其然），但不能让模型学会辨别什么样的回答是好的回答（而不知其所以然）
SFT 是 token 级的学习方法，存在暴露偏差等问题，容易导致幻觉现象的产生

代码一：22.括号生成

思路：回溯法

def generateParenthesis(self, n: int) -> List[str]:

代码二：多头注意力

class MultiHeadAttention(nn.Module):

代码三：无重复字符的最长子串

class Solution:

作者：南门子，已获作者授权发布

来源：https://zhuanlan.zhihu.com/p/1917606016717139973

2024最新版优快云大礼包：《AGI大模型学习资源包》免费分享**

一、2025最新大模型学习路线

一个明确的学习路线可以帮助新人了解从哪里开始，按照什么顺序学习，以及需要掌握哪些知识点。大模型领域涉及的知识点非常广泛，没有明确的学习路线可能会导致新人感到迷茫，不知道应该专注于哪些内容。

我们把学习路线分成L1到L4四个阶段，一步步带你从入门到进阶，从理论到实战。

L1级别:AI大模型时代的华丽登场

L1阶段：我们会去了解大模型的基础知识，以及大模型在各个行业的应用和分析；学习理解大模型的核心原理，关键技术，以及大模型应用场景；通过理论原理结合多个项目实战，从提示工程基础到提示工程进阶，掌握Prompt提示工程。

L2级别：AI大模型RAG应用开发工程

L2阶段是我们的AI大模型RAG应用开发工程，我们会去学习RAG检索增强生成：包括Naive RAG、Advanced-RAG以及RAG性能评估，还有GraphRAG在内的多个RAG热门项目的分析。

L3级别：大模型Agent应用架构进阶实践

L3阶段：大模型Agent应用架构进阶实现，我们会去学习LangChain、 LIamaIndex框架，也会学习到AutoGPT、 MetaGPT等多Agent系统，打造我们自己的Agent智能体；同时还可以学习到包括Coze、Dify在内的可视化工具的使用。

L4级别：大模型微调与私有化部署

L4阶段：大模型的微调和私有化部署，我们会更加深入的探讨Transformer架构，学习大模型的微调技术，利用DeepSpeed、Lamam Factory等工具快速进行模型微调；并通过Ollama、vLLM等推理部署框架，实现模型的快速部署。

整个大模型学习路线L1主要是对大模型的理论基础、生态以及提示词他的一个学习掌握；而L3 L4更多的是通过项目实战来掌握大模型的应用开发，针对以上大模型的学习路线我们也整理了对应的学习视频教程，和配套的学习资料。

二、大模型经典PDF书籍

书籍和学习文档资料是学习大模型过程中必不可少的，我们精选了一系列深入探讨大模型技术的书籍和学习文档，它们由领域内的顶尖专家撰写，内容全面、深入、详尽，为你学习大模型提供坚实的理论基础。（书籍含电子版PDF）

三、大模型视频教程

对于很多自学或者没有基础的同学来说，书籍这些纯文字类的学习教材会觉得比较晦涩难以理解，因此，我们提供了丰富的大模型视频教程，以动态、形象的方式展示技术概念，帮助你更快、更轻松地掌握核心知识。

四、大模型项目实战

学以致用 ，当你的理论知识积累到一定程度，就需要通过项目实战，在实际操作中检验和巩固你所学到的知识，同时为你找工作和职业发展打下坚实的基础。

五、大模型面试题

面试不仅是技术的较量，更需要充分的准备。

在你已经掌握了大模型技术之后，就需要开始准备面试，我们将提供精心整理的大模型面试题库，涵盖当前面试中可能遇到的各种技术问题，让你在面试中游刃有余。

因篇幅有限，仅展示部分资料，需要点击下方链接即可前往获取

2024最新版优快云大礼包：《AGI大模型学习资源包》免费分享

您可能感兴趣的与本文相关的镜像

Qwen3-8B

文本生成

Qwen3

Qwen3 是 Qwen 系列中的最新一代大型语言模型，提供了一整套密集型和专家混合（MoE）模型。基于广泛的训练，Qwen3 在推理、指令执行、代理能力和多语言支持方面取得了突破性进展