大模型学习 (Datawhale_Happy-LLM)笔记
任务1: 内容介绍与前言
内容简介与前言
想要深入了解 LLM (Large Language Model) 大语言模型,还需要探究其背后的原理和训练过程。《Happy-LLM》教程除去内容简介和前言,共分为七章主要目标是带我们从NLP (Natural Language Processing) 的基本原理出发,探究 LLM 的架构和训练过程,并动手实践训练一个。我的学习计划是快速阅读理论部分,然后进入实践阶段,边实践边加深对理论部分的探究。
内容导航让我对本次学习有了一个全局概览。前四章包括:
理论部分 (前四章)
- NLP基础
- Transformer 架构 (LLM最重要的理论基础)
- 预训练语言模型 (Pretrain Language Model)
- 大语言模型
实践部分(后三章)
- 动手搭建大模型
- 大模型训练实践
- 大模型应用
简介与前言中提及的 LLM 相关词汇快速梳理
LLM (Large Language Model) - 大语言模型
一种基于深度学习的人工智能模型,通过在大规模文本数据上进行训练,能够理解和生成人类语言。
NLP (Natural Language Processing) - 自然语言处理
计算机科学、人工智能以及语言学领域的交叉学科,致力于让计算机能够理解、处理和生成人类语言。
Transformer(模型架构)
一种基于注意力机制的深度学习架构,是现代大语言模型的基础框架。
PLM 经典架构 (Encoder-Only, Encode-Decoder, Decoder-Only)
Attention Mechanism - 注意力机制
一种让模型在处理序列数据时能够关注到重要信息的技术,是Transformer架构的核心组件。
Pre-training - 预训练
在大规模无标签文本数据上训练语言模型的过程(无监督, upsupervised),让模型学习语言的基本规律和知识。
Fine-tuning - 微调
在预训练模型的基础上,使用特定任务的数据进行进一步训练,以适应特定应用场景。
RAG (Retrieval-Augmented Generation) - 检索增强生成
结合信息检索和文本生成的技术,让模型能够利用外部知识库来提供更准确的回答。
Agent - 智能代理
能够感知环境、做出决策并执行行动的AI系统,通常基于大语言模型构建。
PyTorch
一个开源的机器学习框架,Happy-LLM教程中用于实现大语言模型的主要工具。