
LLM面试宝典
文章平均质量分 93
专注于大语言模型(LLMs)的核心技术解读与高频面试题解析,涵盖模型架构、训练目标、涌现能力及其实际应用。
吴师兄大模型
计算机硕士。
研究方向:知识图谱、自然语言处理(NLP)与大模型技术。
擅长理论剖析与实战应用,致力于分享高质量人工智能学习资源。
展开
-
大模型(LLM)面试全解:主流架构、训练目标、涌现能力全面解析
涌现能力(Emergent Capabilities)指模型在参数规模增加后,表现出一些原本无法完成或难以完成的任务能力。主流的开源模型体系:当前大模型主要分为三大类架构——Encoder-Decoder、Causal Decoder、Prefix Decoder,各自具有针对性强的特点和适用场景。原创 2025-01-08 17:41:54 · 1182 阅读 · 0 评论 -
【大模型(LLM)面试全解】深度解析 Layer Normalization 的原理、变体及实际应用
在深度学习领域,归一化技术已经成为模型训练中必不可少的一部分,而 Layer Normalization(简称 Layer Norm)作为一种经典的归一化方法,在 Transformer、语言模型(如 GPT、BERT)以及图像模型等领域得到了广泛应用。与 Batch Normalization 不同,Layer Norm 针对每个样本的特征维度进行归一化,因此在小批量甚至单样本输入场景下表现尤为出色。然而,Layer Norm 的引入也伴随着一系列问题,如计算效率、模型深度对训练稳定性的影响等。原创 2025-01-09 18:45:00 · 860 阅读 · 0 评论