- 博客(10)
- 收藏
- 关注
原创 大模型学习 (Datawhale_Happy-LLM)笔记10: 动手实现一个 LLaMA2 大模型
首先我们需要定义一些超参数,这些超参数包括模型的大小、层数、头数、词嵌入维度、隐藏层维度等等。这些超参数可以根据实际情况进行调整。这里我们自定义一个 ModelConfig 类,我们可以通过继承这个类来方便的使用 transformer 库中的一些功能,也方便在后续导出 Hugging Face 模型。# 须要导入的库Model Config 类self,dim: int=768, # 模型维度n_layers: int=12, # Transformer的层数。
2025-07-14 14:10:04
574
原创 大模型学习 (Datawhale_Happy-LLM)笔记9: 大语言模型(Large Language Model, LLM)
LLM 是指参数量通常达到数百亿甚至千亿级,并在数万亿 token的海量无监督文本上进行预训练的语言模型。其本质是通过“预测下一个 token”的自监督任务(如因果语言模型,CLM)学习语言规律和世界知识,最终具备强大的上下文理解、指令遵循和文本生成能力。与传统 PLM 的区别。
2025-07-04 08:47:01
860
原创 大模型学习 (Datawhale_Happy-LLM)笔记8: Decoder-Only PLM
Decoder-Only PLM 代表了当前LLM发展的主流方向,从 GPT 的开创性工作到 LLaMA 的工程优化,再到各种开源模型的百花齐放,这种架构已经成为大语言模型的标准选择。随着技术的不断进步和应用场景的不断拓展,Decoder-Only 架构将继续在大语言模型领域发挥核心作用,推动人工智能向更高层次发展。
2025-06-30 10:36:51
915
原创 大模型学习 (Datawhale_Happy-LLM)笔记7: Encoder-Decoder PLM
T5(Text-to-Text Transfer Transformer)是Google推出的Encoder-Decoder PLM的典型代表 [4][5],它体现了"大一统"的设计思想,将所有NLP任务统一为"文本到文本"的处理框架。
2025-06-29 20:33:54
653
原创 大模型学习 (Datawhale_Happy-LLM)笔记6: Encoder-only PLM
Google 选择了对 Transformer 中的 Encoder 层进行优化,通过将 Encoder 层进行堆叠,扩大模型参数,结合预训练任务 (MLM, Masked Language Model) 进一步推动了预训练+微调范式的发展。
2025-06-29 10:15:38
1043
原创 大模型学习 (Datawhale_Happy-LLM)笔记4: 预训练语言模型
本章按 Encoder-Only、Encoder-Decoder、Decoder-Only 的顺序来依次介绍 Transformer 时代的各个主流预训练模型,分别介绍三种核⼼的模型架构、每种主流模型选择的预训练任务及其独特优势,这也是目前所有主流 LLM 的模型基础。BERT类模型教会机器“理解语义”,GPT类模型教会机器“生成内容”,T5类模型打通“理解+生成”——它们共同构成了大语言模型(LLM)的技术地基。
2025-06-22 12:12:09
398
原创 大模型学习 (Datawhale_Happy-LLM)笔记3: Transformer 架构
第二章详细介绍了Transformer架构,该架构是大语言模型的核心基础。章节首先深入讲解了注意力机制的原理,包括Query、Key和Value三个核心变量,以及自注意力、掩码自注意力和多头注意力的实现方式。接着阐述了Transformer的编码器-解码器(Encoder-Decoder)结构,详细解析了前馈神经网络、层归一化和残差连接等关键组件。章节还讨论了Embedding层和位置编码的重要性,展示了如何将序列的位信息融入模型。最后,通过代码实现展示了如何从零搭建一个完整的Transformer模型
2025-06-20 22:27:31
1093
原创 大模型学习 (Datawhale_Happy-LLM)笔记1:内容介绍与前言
一种基于深度学习的人工智能模型,通过在大规模文本数据上进行训练,能够理解和生成人类语言。
2025-06-16 20:52:59
465
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人