自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(10)
  • 收藏
  • 关注

原创 大模型学习 (Datawhale_Happy-LLM)笔记10: 动手实现一个 LLaMA2 大模型

首先我们需要定义一些超参数,这些超参数包括模型的大小、层数、头数、词嵌入维度、隐藏层维度等等。这些超参数可以根据实际情况进行调整。这里我们自定义一个 ModelConfig 类,我们可以通过继承这个类来方便的使用 transformer 库中的一些功能,也方便在后续导出 Hugging Face 模型。# 须要导入的库Model Config 类self,dim: int=768, # 模型维度n_layers: int=12, # Transformer的层数。

2025-07-14 14:10:04 574

原创 大模型学习 (Datawhale_Happy-LLM)笔记9: 大语言模型(Large Language Model, LLM)

LLM 是指参数量通常达到数百亿甚至千亿级,并在数万亿 token的海量无监督文本上进行预训练的语言模型。其本质是通过“预测下一个 token”的自监督任务(如因果语言模型,CLM)学习语言规律和世界知识,最终具备强大的上下文理解、指令遵循和文本生成能力。与传统 PLM 的区别。

2025-07-04 08:47:01 860

原创 大模型学习 (Datawhale_Happy-LLM)笔记8: Decoder-Only PLM

Decoder-Only PLM 代表了当前LLM发展的主流方向,从 GPT 的开创性工作到 LLaMA 的工程优化,再到各种开源模型的百花齐放,这种架构已经成为大语言模型的标准选择。随着技术的不断进步和应用场景的不断拓展,Decoder-Only 架构将继续在大语言模型领域发挥核心作用,推动人工智能向更高层次发展。

2025-06-30 10:36:51 915

原创 大模型学习 (Datawhale_Happy-LLM)笔记7: Encoder-Decoder PLM

T5(Text-to-Text Transfer Transformer)是Google推出的Encoder-Decoder PLM的典型代表 [4][5],它体现了"大一统"的设计思想,将所有NLP任务统一为"文本到文本"的处理框架。

2025-06-29 20:33:54 653

原创 大模型学习 (Datawhale_Happy-LLM)笔记6: Encoder-only PLM

Google 选择了对 Transformer 中的 Encoder 层进行优化,通过将 Encoder 层进行堆叠,扩大模型参数,结合预训练任务 (MLM, Masked Language Model) 进一步推动了预训练+微调范式的发展。

2025-06-29 10:15:38 1043

原创 大模型学习 (Datawhale_Happy-LLM)笔记5: 搭建一个 Transformer

搭建一个 Transformer

2025-06-25 15:37:40 773

原创 大模型学习 (Datawhale_Happy-LLM)笔记4: 预训练语言模型

本章按 Encoder-Only、Encoder-Decoder、Decoder-Only 的顺序来依次介绍 Transformer 时代的各个主流预训练模型,分别介绍三种核⼼的模型架构、每种主流模型选择的预训练任务及其独特优势,这也是目前所有主流 LLM 的模型基础。BERT类模型教会机器“理解语义”,GPT类模型教会机器“生成内容”,T5类模型打通“理解+生成”——它们共同构成了大语言模型(LLM)的技术地基。

2025-06-22 12:12:09 398

原创 大模型学习 (Datawhale_Happy-LLM)笔记3: Transformer 架构

第二章详细介绍了Transformer架构,该架构是大语言模型的核心基础。章节首先深入讲解了注意力机制的原理,包括Query、Key和Value三个核心变量,以及自注意力、掩码自注意力和多头注意力的实现方式。接着阐述了Transformer的编码器-解码器(Encoder-Decoder)结构,详细解析了前馈神经网络、层归一化和残差连接等关键组件。章节还讨论了Embedding层和位置编码的重要性,展示了如何将序列的位信息融入模型。最后,通过代码实现展示了如何从零搭建一个完整的Transformer模型

2025-06-20 22:27:31 1093

原创 大模型学习 (Datawhale_Happy-LLM)笔记2_自然语言处理 NLP 概述

自然语言处理概述

2025-06-18 22:27:53 977

原创 大模型学习 (Datawhale_Happy-LLM)笔记1:内容介绍与前言

一种基于深度学习的人工智能模型,通过在大规模文本数据上进行训练,能够理解和生成人类语言。

2025-06-16 20:52:59 465

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除