【大模型面试】50道大型语言模型（LLM）面试问题汇总，看完少走99%弯路！

原创于 2025-07-12 11:53:45 发布 · 448 阅读

CC 4.0 BY-SA版权

文章标签：

随着人工智能技术的飞速发展，大型语言模型（LLM）已成为当下科技领域的热门焦点，在各行各业的应用愈发广泛，相关岗位的需求也日益增长。无论是求职 LLM 算法工程师、研究员，还是产品经理等岗位，掌握 LLM 的核心知识都至关重要。以下为你汇总 50 道 LLM 面试常见问题，涵盖基础概念、技术原理、模型应用、训练优化等多个方面，助你在面试中从容应对。

请添加图片描述

一、基础概念

1. 什么是大型语言模型（LLM）？

大型语言模型是一种基于深度学习的人工智能模型，通过在大规模文本数据上进行训练，学习语言的统计规律和语义表示，具备理解自然语言、生成文本以及执行多种自然语言处理任务的能力。例如 GPT-4、文心一言等。

2. LLM 与传统 NLP 模型的区别是什么？

传统 NLP 模型往往针对特定任务设计，如文本分类、情感分析等，模型结构和训练数据相对局限，泛化能力较弱。而 LLM 基于 Transformer 架构，在海量多领域文本上预训练，拥有强大泛化性，能在少样本或零样本下完成多种任务，参数规模也远超传统模型。

3. 列举几个主流的开源 LLM？

LLaMA（Large Language Model Meta AI），由 Meta 发布，基础版本有 70 亿、130 亿、330 亿和 650 亿参数；Falcon，由 Technology Innovation Institute (TII) 开发，像 Falcon-40B 等；还有国内的 ChatGLM 系列，如 ChatGLM-6B，支持中英双语，在消费级 GPU 上可高效运行。

4. 简述 GPT 和 BERT 的区别？

GPT 是生成式预训练变换器，采用 decoder-only 架构，重点在于根据前文生成连贯文本，适用于文本创作、对话系统等。BERT 是基于 Transformer 的双向编码器表征，采用 encoder 架构，在理解文本语义、完成文本分类、问答匹配等理解类任务上表现出色，其双向编码能同时考虑上下文信息。

5. 什么是词元化（Tokenization），为什么它对 LLM 至关重要？

词元化是将文本分解为更小单元（词元，token）的过程，这些单元可以是单词、子词或字符。比如 “transformer” 可能被拆分为 “trans”“form”“er”。LLM 处理的是词元的数值表示而非原始文本，词元化使模型能处理多样语言，应对罕见或未知词汇，优化词汇表大小，提升计算效率和模型性能。

二、技术原理

6. 请简述 Transformer 基本原理？

Transformer 架构基于自注意力机制，通过计算输入序列中每个位置与其他位置的关联程度，动态分配权重，捕捉长距离依赖关系。包含多头注意力机制，并行计算多个注意力头，综合不同视角信息。模型由编码器和解码器组成，编码器将输入序列编码为连续表示，解码器基于此生成输出序列，在自然语言处理任务中表现卓越。

7. 为什么 Transformer 的架构需要多头注意力机制？

多头注意力机制允许模型并行关注输入序列的不同部分，从多个表示子空间捕捉信息。不同头可聚焦于文本中不同类型关系，如语义、句法等，使模型能更全面理解上下文，增强模型对复杂语言结构和语义关系的建模能力，提升任务表现。

8. Transformers 需要位置编码吗？为什么？

需要。Transformer 架构本身不具备对序列中单词位置信息的固有感知能力，位置编码为模型提供单词在序列中的位置信息，帮助模型区分相同单词在不同位置的语义差异，在处理具有顺序依赖的自然语言任务时，对理解上下文和生成连贯文本至关重要。

9. Transformer 中，同一个词可以有不同的注意力权重吗？

可以。在多头注意力机制下，每个头计算注意力权重时，会从不同子空间对输入进行投影和计算，同一个词在不同头中的表示不同，与其他词的关联程度也不同，因此会得到不同注意力权重，最终综合多个头的结果作为该词的整体表示。

10. Wordpiece 与 BPE（字节对编码）之间的区别是什么？

Wordpiece 基于概率，从给定词汇表中选择能使句子概率最大的词元切分方式，如将 “unaffordable” 切分为 “un”“afford”“able”，适用于处理形态丰富语言。BPE 是基于字符的贪心算法，迭代合并出现频率最高的字节对，生成子词单元，如将 “low” 和 “er” 合并为 “lower”，在平衡词汇表大小和词元粒度上表现良好，对低资源语言友好。

11. 讲一下生成式语言模型的工作机理？

生成式语言模型基于大量文本数据训练，学习到词与词之间的统计关系和语义关联。在生成文本时，模型从初始输入（可能是一个词或短语）开始，根据已学习到的概率分布，预测下一个最可能出现的词，不断重复这一过程，逐步生成连贯文本，如 GPT 系列模型根据前文逐词生成后续内容。

12. LLM 中的因果语言建模与掩码语言建模有什么区别？

因果语言建模（如 GPT）按顺序处理文本，基于前文预测下一个词，模型只能看到当前词之前的信息，适合文本生成任务。掩码语言建模（如 BERT）随机掩盖输入文本中的部分词，模型根据上下文预测被掩盖的词，能同时利用前后文信息，更擅长文本理解类任务，如阅读理解、文本分类。

13. 温度系数（Temperature）和 top - p，top - k 参数有什么区别？

温度系数用于控制生成文本的随机性，值越大，概率分布越均匀，生成文本越随机多样；值越小，越倾向选择概率最高的词，文本更确定、保守。top - k 从预测的前 k 个最可能词中随机采样生成下一个词，减少低频、不合理词出现概率。top - p 则从概率累积超过 p 的最小词集合中采样，动态调整候选词范围，平衡多样性和合理性。

14. 为什么 transformer 块使用 LayerNorm 而不是 BatchNorm？

在 NLP 任务中，文本序列长度不一，BatchNorm 对每个 batch 内数据归一化，不同样本长度差异会导致计算不便。LayerNorm 对每个样本的特征维度进行归一化，与样本长度无关，更适合处理变长序列。此外，LayerNorm 在训练的稳定性和模型收敛速度上表现更好，尤其在大规模预训练模型中优势明显。

15. 介绍一下 post - layer norm 和 pre - layer norm 的区别？

post - layer norm 是在每个子层（如多头注意力、前馈神经网络）输出后进行 LayerNorm 操作，这是原始 Transformer 采用的方式，能有效稳定训练，但深层网络可能出现梯度消失或梯度爆炸问题。pre - layer norm 将 LayerNorm 提前到子层输入前，有助于缓解梯度问题，使模型训练更稳定，可训练更深网络，但可能在初期训练时收敛较慢。

三、模型应用

16. LLM 有哪些典型的应用场景？

文本生成，如创作新闻文章、故事、诗歌等；智能问答系统，回答用户问题；机器翻译，实现不同语言间文本转换；对话系统，进行人机对话交互；文本摘要，提取文本关键信息；代码生成，根据需求生成程序代码等。

17. 解释 ChatGPT 的零样本和少样本学习的概念？

零样本学习指模型在未见过特定任务相关训练样本情况下，仅根据任务描述和自身预训练知识进行推理和执行任务。例如，给 ChatGPT 一个全新领域问题，它能基于通用知识给出回答。少样本学习是模型在少量训练样本（通常 1 - 5 个）辅助下，快速适应并完成特定任务，如给几个法律案例示例，让模型处理新的法律问题。

18. 你觉得什么样的任务或领域适合用思维链（CoT）提示？

复杂推理任务，如数学问题求解、逻辑推理题等，CoT 提示引导模型逐步推导，提高答案准确性。多步骤决策领域，像医疗诊断、金融投资决策，模型可通过思维链梳理各步骤依据。常识推理任务，帮助模型结合常识知识，生成更合理回答，如解释日常现象背后原因。

19. 你了解 ReAct 吗，它有什么优点？

ReAct 是一种结合推理（Reasoning）和行动（Action）的框架，让模型在复杂环境中完成任务。优点在于将语言理解与实际行动联系，增强模型解决现实问题能力；通过明确推理步骤和行动序列，使模型决策过程更可解释；能更好利用外部工具和信息，如搜索引擎、知识库，提升任务完成质量，在信息检索、任务执行等场景表现出色。

20. 解释一下 langchain Agent 的概念？

langchain Agent 是 langchain 框架中的组件，它能利用工具（如搜索引擎、数据库查询等）自主决定一系列行动步骤来完成用户任务。通过将用户输入转化为对工具的调用序列，结合工具输出和语言模型能力，处理复杂任务，如从多个数据源收集信息并整合回答用户问题，增强语言模型在实际应用中的灵活性和实用性。

21. langchain 有哪些替代方案？

Haystack，提供灵活架构，支持多模态数据，在文档问答、信息检索等场景表现良好，可高效处理大规模文本数据。Semantic Kernel，微软开发，紧密集成 OpenAI 等多种模型，专注于通过插件扩展模型能力，实现更复杂功能。Rasa，主要用于构建对话系统，在意图识别、对话管理方面功能强大，适合开发专业对话机器人。

22. langchain token 计数有什么问题？如何解决？

问题在于不同模型对 token 的定义和计数方式有差异，导致在使用 langchain 调用不同模型时，token 计数不准确，影响成本预估和输入长度限制控制。解决方法是使用 langchain 提供的统一 token 计数工具，针对不同模型进行适配；或者参考模型官方文档，手动调整 token 计数逻辑；也可在应用中进行测试和校准，确保计数准确性。

23. 如何评估大语言模型（LLMs）的性能？

可从语言生成质量评估，如生成文本的流畅性、连贯性、逻辑性；事实准确性，判断生成内容与客观事实符合程度；任务完成能力，在特定任务（问答、翻译等）中的表现，如准确率、召回率等指标；模型的泛化能力，在未见领域或任务上的适应程度；还可通过人工评估，让专业人员对模型输出进行打分和评价。

24. 如何缓解 LLMs 重复读问题？

调整生成参数，如降低温度系数，使模型更倾向选择高概率词，减少随机生成导致的重复；在生成过程中，记录已生成词，对重复出现词的概率进行惩罚；引入惩罚机制，如基于强化学习，对生成重复内容的行为给予负奖励，引导模型避免重复；对输入提示进行优化，提供更明确、详细信息，让模型生成更具针对性内容。

25. 哪些因素会导致 LLM 的偏见？

训练数据存在偏见，如数据来源片面、某些群体或观点代表性不足；数据标注错误或带有主观偏见；模型结构和训练算法本身可能放大数据中的偏差；预训练任务设计不合理，使模型学习到不恰当语言模式，这些因素都可能导致 LLM 产生偏见。

26. 如何减轻 LLM 中的幻觉现象？

优化训练数据，确保数据准确性和多样性，减少错误或误导性信息；改进模型架构，增强模型对事实的理解和推理能力；在生成阶段引入验证机制，如利用外部知识库验证生成内容真实性；对生成文本进行后处理，检测和修正可能的幻觉内容；采用强化学习从人类反馈中学习，引导模型生成更符合事实的文本。

四、模型训练与优化

27. LLM 预训练阶段有哪几个关键步骤？

数据收集，从互联网、书籍、论文等多渠道收集海量文本数据；数据清洗，去除噪声数据、错误格式文本、重复内容等；数据预处理，进行词元化、构建词汇表、将文本转换为模型可处理的数值表示；选择合适模型架构（如 Transformer）并初始化参数；使用大规模计算资源，在预处理后的数据上进行长时间训练，优化模型参数以学习语言模式和语义表示。

28. RLHF（基于人类反馈的强化学习）模型为什么会表现比 SFT（监督微调）更好？

SFT 基于有监督学习，使用标注数据微调模型，标注数据质量和数量影响较大，且受限于标注者主观性和知识范围。RLHF 通过让模型与环境交互，根据人类反馈奖励信号调整策略，能更好捕捉人类偏好和复杂语言使用方式，学习到更符合人类期望的行为，使模型输出在自然度、合理性、符合用户需求等方面表现更优。

29. 参数高效的微调（PEFT）有哪些方法？

低秩自适应（LORA），在模型层添加低秩矩阵，通过少量参数更新实现高效微调；前缀微调（Prefix - tuning），在输入前添加可训练前缀，引导模型输出；提示微调（Prompt - tuning），优化输入提示中的可训练参数；适配器微调（Adapter - tuning），在模型层间插入小型可训练适配器模块，这些方法都能在减少计算资源和存储需求下有效微调模型。

30. LORA 微调相比于微调适配器或前缀微调有什么优势？

LORA 微调引入的额外参数少，内存开销小，在资源受限环境（如消费级 GPU）下也能高效运行；训练速度快，由于只需更新少量低秩矩阵参数，计算量大幅减少；灵活性高，可方便地应用于不同模型架构；并且与其他优化技术兼容性好，能与量化等技术结合进一步提升效率。

31. 有了解过什么是稀疏微调吗？

稀疏微调是在微调过程中，使模型参数稀疏化，即部分参数变为 0，减少有效参数数量。通过特定正则化方法或剪枝策略实现，在保持模型性能前提下降低计算成本、减少存储需求，同时可能提高模型泛化能力，使模型在资源受限场景下更高效运行。

32. 训练后量化（PTQ）和量化感知训练（QAT）与什么区别？

PTQ 在模型训练完成后进行量化，将模型权重和激活值从高精度数据类型转换为低精度（如从 32 位浮点数转换为 8 位整数），不改变模型训练过程，简单易行但可能对模型性能有一定损失。QAT 在模型训练过程中就考虑量化影响，通过模拟量化操作调整训练算法，使模型在训练阶段适应低精度计算，能更好平衡量化后模型性能和存储、计算效率。

33. LLMs 中，量化权重和量化激活的区别是什么？

量化权重是对模型参数（权重矩阵）进行量化，减少存储权重所需内存空间，降低计算过程中矩阵乘法运算量。量化激活是对模型计算过程中的中间激活值进行量化，控制计算过程中的数据精度，同样可减少内存占用和计算资源消耗，但由于激活值动态范围和分布特性，量化激活实现和优化相对复杂，对模型性能影响也与量化权重有所不同。

34. AWQ（Activation - aware Weight Quantization）量化的步骤是什么？

首先分析模型激活值分布，确定激活值动态范围；根据激活值信息，对权重进行量化，在量化权重时考虑激活值对量化误差的影响，使量化后的权重与激活值更好匹配；对量化后的模型进行微调或校准，补偿量化带来的精度损失，优化模型在低精度下的性能。

35. 介绍一下 GPipe 推理框架？

GPipe 是一种用于加速大规模神经网络推理的框架，采用流水线并行技术，将模型的不同层分配到多个计算设备（如 GPU）上并行执行。通过将推理过程划分为多个阶段，重叠不同阶段计算和数据传输时间，减少推理延迟，提高系统整体吞吐量，尤其适用于处理长序列输入和大型模型推理任务。

36. 矩阵乘法如何做张量并行？

张量并行将矩阵乘法中的张量（矩阵）在多个计算设备间进行划分。例如，对于两个大矩阵相乘，将其中一个矩阵按行或列切分，不同部分分配到不同 GPU 上，每个 GPU 并行计算部分乘积，最后将各部分结果汇总得到完整乘积。通过这种方式充分利用多个 GPU 计算资源，加速矩阵乘法运算，提升模型训练和推理效率。

37. 请简述下 PPO（近端策略优化）算法流程，它跟 TRPO（信赖域策略优化）的区别是什么？

PPO 算法流程：首先收集策略网络在环境中的轨迹数据；然后利用这些数据计算优势函数，评估当前策略与最优策略差距；接着通过优化目标函数更新策略网络，目标函数包含策略改进项和防止策略变化过大的约束项；不断重复上述过程，提升策略性能。与 TRPO 相比，PPO 简化了计算过程，不需要精确计算 Hessian 矩阵（TRPO 需要），采用更简单的近似方法实现对策略更新幅度的控制，训练效率更高，实现更简便，在实际应用中更容易部署和调优。

五、其他

38. 什么是检索增强生成（RAG）？

RAG 是一种结合信息检索和语言模型生成的技术。在处理用户问题时，先通过检索系统从外部知识库（如文档库、网页等）中查找相关信息，然后将这些检索到的信息与用户问题一起输入到语言模型中，语言模型基于问题和检索信息生成回答。它能利用最新知识，提高回答准确性和时效性，减少模型幻觉，在知识问答、信息抽取等场景广泛应用。

39. 目前主流的中文向量模型有哪些？

如清华大学的 ERNIE - Bot，在中文语义理解和文本生成方面表现良好，能有效处理中文语境下复杂语义关系；字节跳动的云雀模型，对中文文本理解和生成能力较强，在多种中文任务中取得不错成绩；还有哈工大讯飞联合实验室的 GLM - 130B 等，对中文语言特点有针对性优化，在知识图谱构建、智能客服等中文应用场景有广泛应用。

40. 什么是模型压缩，在 LLM 中有哪些常用的模型压缩方法？

模型压缩是在保证模型性能基本不变的前提下，通过减少模型参数数量、降低计算复杂度等方式，缩小模型体积、提高运行速度的技术。在 LLM 中常用的方法有量化，将高精度参数转为低精度，如从 32 位浮点数转为 8 位整数；剪枝，去除模型中不重要的参数或神经元，保留关键部分；知识蒸馏，让小模型学习大模型的知识和行为；还有低秩分解，用低秩矩阵近似表示高秩权重矩阵，减少参数数量。

41. LLM 部署时需要考虑哪些关键因素？

计算资源，需评估 GPU、CPU 等硬件性能，确保模型能高效运行，满足实时响应需求；内存和存储，模型参数和输入输出数据需要足够内存和存储空间；延迟和吞吐量，根据应用场景要求，优化模型推理速度，保证在单位时间内处理足够多请求；兼容性，确保模型能在目标部署环境（如云端、边缘设备）的操作系统和框架上正常运行；安全性，防止模型被恶意攻击、数据泄露等问题。

42. 什么是模型蒸馏，在 LLM 中有何作用？

模型蒸馏是利用一个训练好的大模型（教师模型）来指导一个小模型（学生模型）训练的技术。在 LLM 中，通过让小模型学习大模型的输出分布、中间层特征等知识，使小模型在保持接近大模型性能的同时，体积更小、计算效率更高。这有助于将大型语言模型部署到资源受限的设备（如手机、嵌入式设备）上，降低应用门槛和成本。

43. LLM 在医疗领域应用可能面临哪些挑战？

数据隐私问题，医疗数据包含患者敏感信息，使用过程中需严格保护，防止泄露；数据质量和标注，医疗数据专业性强，标注难度大，可能存在错误或不完整情况，影响模型训练效果；模型的可靠性和可解释性，医疗决策关乎生命健康，模型输出需准确且可解释，便于医生理解和判断；行业规范和监管，医疗领域有严格法规，模型应用需符合相关标准和审批流程。

44. 如何处理 LLM 的输入长度限制问题？

采用文本截断，当输入文本超过限制时，保留关键部分（如开头和结尾），截断中间内容，但可能丢失重要信息；文本分段，将长文本拆分为多个符合长度限制的片段，分别处理后再整合结果，需注意片段间的逻辑连贯性；使用支持更长输入的模型，如一些经过优化的 LLM 版本，增加了最大输入长度；采用注意力机制优化，如稀疏注意力，让模型在处理长文本时更高效地聚焦关键信息。

45. 什么是模型对齐，为什么 LLM 需要进行模型对齐？

模型对齐是使语言模型的行为和输出与人类价值观、目标和偏好保持一致的过程。LLM 在大规模数据上训练，可能学到不符合人类期望的内容（如偏见、有害信息），通过模型对齐，可让模型生成更安全、有益、符合伦理的文本，避免产生不良影响，确保模型在实际应用中更好地服务于人类需求。

46. LLM 的训练数据存在哪些潜在问题？

数据来源可能包含虚假信息、偏见内容、版权问题等；数据分布不均衡，某些领域或群体的数据过多，而其他方面数据不足，导致模型在少数群体或特定领域表现不佳；数据时效性差，无法涵盖最新事件和知识，使模型生成过时内容；还可能存在重复数据，影响模型学习效率和泛化能力。

47. 边缘设备部署 LLM 有什么难点和解决方案？

难点在于边缘设备计算资源有限，难以承载 LLM 的大规模计算需求；内存和存储容量小，无法容纳庞大的模型参数；能耗限制，LLM 高计算量会导致设备能耗过高。解决方案包括模型压缩（如量化、剪枝），减小模型体积和计算量；设计轻量化模型架构，专门针对边缘设备优化；利用硬件加速技术，如专用 AI 芯片提升计算效率；采用联邦学习，在边缘设备上分布式训练，减少数据传输和集中计算压力。

48. 什么是提示工程，它在 LLM 应用中有什么重要性？

提示工程是设计和优化输入提示（Prompt）的过程，通过精心构造提示语，引导 LLM 生成更符合预期的输出。在 LLM 应用中，合适的提示能让模型更好地理解任务需求，提高输出准确性和相关性，尤其在零样本或少样本场景下，优秀的提示工程可显著提升模型性能，拓展模型在不同任务中的应用范围。

49. LLM 可能带来哪些安全风险，如何防范？

安全风险包括生成有害内容（如仇恨言论、虚假信息）、被用于网络攻击（如生成恶意代码、钓鱼邮件）、泄露敏感信息等。防范措施有加强模型对齐训练，过滤和阻止有害输出；设置内容审核机制，对模型生成内容进行监控和审查；采用访问控制，限制模型的使用权限；定期更新模型和安全策略，应对新出现的安全威胁。

50. 未来 LLM 的发展趋势可能有哪些？

模型规模将继续扩大，同时更注重效率提升，出现更多高效、轻量化模型；多模态融合，结合文本、图像、音频等多种数据类型，具备更全面的感知和生成能力；增强可解释性，让模型的决策过程更透明，便于人类理解和信任；与更多领域深度融合，如教育、科研、工业等，解决更复杂的实际问题；在伦理、隐私和安全方面的规范和技术将更加完善。

以上 50 道问题涵盖了大型语言模型从基础概念到技术原理、从模型应用到训练优化，再到安全、未来趋势等多个维度的核心知识点。LLM 领域发展迅速，知识体系不断更新，希望这份汇总能为你搭建起 LLM 知识框架的基础。在面试准备过程中，除了掌握这些问题的答案，更要注重理解背后的逻辑和原理，结合实际案例进行思考，灵活应对面试官的延伸提问。祝你在 LLM 相关岗位的面试中取得理想成绩，顺利开启在人工智能领域的职业之旅！

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

这份完整版的大模型 AI 学习资料已经上传优快云，朋友们如果需要可以微信扫描下方优快云官方认证二维码免费领取【保证100%免费】