-
什么是分词?
分词是将文本分解为更小的单元(称为“标记”)的过程,这些单元可以是单词、子词、字符,甚至是有意义的短语。
为什么重要? 语言模型将文本作为数字序列进行处理,每个标记对应词汇表中的一个索引。 通过将文本转换为模型可理解的格式,提高了计算效率。 通过将罕见词拆分为子词来处理,例如“unbelievable” → [“un”, “believable”]。 在多语言任务中具有灵活性,并减少了词汇表的大小。 -
什么是LoRA和QLoRA?
LoRA(低秩适应):
一种微调技术,通过少量额外参数来适应预训练语言模型。 不更新所有模型参数,而是引入低秩矩阵以减少微调的内存和计算成本。好处: 无需重新训练整个模型即可高效适应。
QLoRA(量化LoRA):
LoRA的一个变体,对模型权重进行量化(例如使用4位量化)。 显著减少了内存占用和计算需求。 适合在资源有限的硬件上运行大型模型。 -
什么是束搜索,它与贪婪解码有何不同?
束搜索:
一种用于文本生成的解码算法,在每一步都维护多个候选序列(束)。 探索多条路径并选择累积概率最高的序列。 通过避免局部最大值,确保输出更具连贯性和上下文相关性。
贪婪解码:
在每一步选择概率最高的标记,而不考虑未来的可能性。 更快,但可能导致次优输出,因为它可能由于缺乏远见而错过更好的序列。
关键区别:
贪婪解码关注即时奖励,而束搜索并行评估序列以获得更好的结果。 -
解释LLM文本生成中的温度概念。
温度是一个参数,通过调整标记的概率分布来控制语言模型输出的随机性。
低温度(<1): 使输出更具确定性和专注性。 模型优先选择高概率标记,减少多样性。
高温度(>1): 通过使标记概率更均匀来增加变异性。 适用于创造性和多样化的输出。 -
什么是掩码语言建模(MLM)?
MLM涉及随机掩码输入文本中的一些标记,并让模型根据周围上下文进行预测。 由BERT(基于Transformer的双向编码器表示)推广。
目标: 通过利用双向上下文学习语言中的双向依赖关系。
示例:
输入:“The [MASK] is blue.” 预测:“The sky is blue.” -
什么是序列到序列模型?
序列到序列模型将输入序列转换为相应的输出序列,常用于: 机器翻译:英语 → 法语。 文本摘要:长文本 → 摘要。 问答:上下文 → 答案。
组件: 编码器:处理输入并生成表示。 解码器:将表示转换为所需的输出。
示例: 基于Transformer的模型如T5和基于RNN的模型如带注意力机制的Seq2Seq。 -
自回归模型和掩码模型有何不同?
自回归模型(例如GPT): 逐个生成文本,使用之前生成的标记作为上下文。示例: 预测序列中的下一个词。优势: 适合文本生成。
掩码模型(例如BERT): 使用双向上下文预测序列中的掩码标记。优势: 适合理解任务如分类或问答。 -
嵌入在LLM中扮演什么角色?
嵌入是标记的向量表示,编码: 语义信息(意义)。 语法信息(结构)。 它们将离散标记转换为连续数值,以便模型输入。 -
什么是下一句预测(NSP)?
NSP是一种预训练目标,用于教模型理解句子之间的关系。 模型预测给定句子B是否自然地跟在句子A之后。
示例(BERT): 输入: 句子A:“I love books.” 句子B:“They expand my knowledge.” 模型输出:True. -
Top-k和核采样之间有什么区别?
Top-k采样: 将标记选择限制为概率最高的前k个标记。 增加随机性但保持输出的专注性。
核采样(Top-p): 动态选择累积概率阈值为p的标记。 更具适应性,因为它根据每一步的概率分布进行调整。
关键区别: Top-k将选择限制为固定数量,而核采样更具灵活性,根据累积概率选择标记。 -
提示工程如何影响LLM输出?
提示工程是设计清晰、具体和目标导向的输入提示的过程,以引导大型语言模型(LLM)获得期望的结果。它在最大化LLM性能方面至关重要,特别是在以下场景中: 零样本学习:模型在没有先例的情况下执行任务,依赖于提示的清晰度来推断意图。 少样本学习:在提示中提供少量示例以指导模型。有效的提示工程: 提供上下文以减少歧义。 使用结构化指令强调任务的要求。 利用如思维链(CoT)提示等策略来引出逻辑推理。 -
如何减轻LLM中的灾难性遗忘?
灾难性遗忘发生在LLM在训练新任务时丢失先前学到的知识。缓解策略包括:
复习方法: 在再训练期间结合新旧数据以加强先前的知识。
弹性权重固化(EWC): 为模型参数分配重要性权重,惩罚对先前任务至关重要的参数的变化。
模块化方法: 为新任务引入单独的模块或适配器,保留核心模型的现有知识。 这些技术确保模型在适应新要求的同时保留过去的知识。 -
什么是模型蒸馏,它如何应用于LLM?
模型蒸馏涉及将大型、计算密集的“教师”模型的知识转移到较小的“学生”模型。学生通过模仿教师的: 软预测(类别上的概率分布)。 中间表示(如果可用)。 在LLM中,蒸馏减少了部署的计算成本,而不会显著损失准确性。例如,GPT-3的能力可以在蒸馏版本中近似,以便更快地进行推理。 -
LLM如何处理词汇表外(OOV)单词?
LLM通过子词分词技术处理OOV单词,例如: 字节对编码(BPE):将单词分解为较小的单元,如前缀、后缀或字符对。 WordPiece:类似于BPE,但合并标准略有不同。 单词语言模型:选择最可能的子词序列。 这确保即使是未见过的单词也可以表示为已知子词的组合。 -
Transformer架构如何克服Seq2Seq模型的挑战?
Transformer架构通过用以下方式替代递归机制,彻底改变了序列到序列任务: 自注意力:并行处理所有标记,高效捕获全局依赖关系。 位置编码:添加标记顺序信息。 可扩展性:处理长序列而不会出现RNN固有的梯度消失问题。 Transformer更快,更适合需要对长输入序列进行上下文感知预测的任务。 -
什么是过拟合,如何防止它?
过拟合发生在模型记忆训练数据模式而不是泛化到未见数据时。预防措施包括:
正则化: 对大权重进行惩罚(例如L2正则化)。
dropout: 在训练期间随机禁用神经元以促进鲁棒性。
数据增强: 扩大训练数据的多样性。
提前停止: 当验证性能停滞时停止训练。
更简单的模型: 降低复杂性以防止过拟合。 -
什么是生成模型和判别模型?
生成模型: 这些模型学习数据的底层概率分布以生成新的、相似的数据样本。它们对输入特征xxx及其对应的标签yyy进行建模,能够回答“给定xxx,yyy的概率是多少?”和“对于yyy,可能的xxx是什么?”等问题。应用: 文本生成(GPT)、图像合成(GANs)、语音生成。示例: GPT通过预测下一个词来生成类似人类的文本。
判别模型: 这些模型专注于学习不同类别之间的决策边界。它们直接对P(y∣x)P(y|x)P(y∣x)进行建模,即给定输入xxx时标签yyy的概率,而不学习数据分布。应用: 分类任务(例如垃圾邮件检测、情感分析)。示例: BERT将文本分类为正面或负面情感等类别。 -
GPT-4与GPT-3有何不同?
多模态输入: GPT-4可以处理文本和图像,使其在视觉问答等任务中具有多功能性。
更大的上下文窗口: GPT-4可以处理比GPT-3更长的输入序列,提高了长篇讨论或文档的连贯性。
准确性: 由于改进的训练和增加的参数,语言理解、逻辑推理和事实正确性得到了增强。
多语言能力: 改善了对更广泛语言的处理,使GPT-4在全球范围内更具可访问性。 -
LLM中的位置编码是什么?
Transformer缺乏固有的序列感,因为它们并行处理输入标记。位置编码通过引入序列信息来解决这一问题:
工作原理: 位置编码使用数学函数(例如正弦和余弦)根据其在序列中的位置为每个标记分配一个独特的编码。
为什么重要: 它帮助模型区分“The cat chased the dog”和“The dog chased the cat”。 -
什么是多头注意力?
多头注意力允许模型同时关注输入序列的不同方面:
工作原理: 将注意力机制分成多个“头”,每个头学习输入的不同表示。
好处: 捕获多样化的关系,如语法和语义。 增强模型理解复杂依赖关系的能力。
有需要
全套的AI大模型面试题及答案解析资料
的小伙伴,可以微信扫描下方优快云官方认证二维码
,免费领取【保证100%免费】