大模型学习（Datawhale_Happy-LLM）笔记9: 大语言模型（Large Language Model, LLM）

最新推荐文章于 2025-12-03 21:55:45 发布

原创

最新推荐文章于 2025-12-03 21:55:45 发布 · 916 阅读

10 ·

CC 4.0 BY-SA版权

文章标签：

#学习 #笔记 #语言模型 #人工智能 #自然语言处理

大模型学习（Datawhale_Happy-LLM）笔记9: 大语言模型（Large Language Model, LLM）

什么是 LLM（Large Language Model，大语言模型或大型语言模型）

LLM 是一种在预训练语言模型（PLM）基础上发展而来的先进模型，其核心特点是通过大规模参数和海量训练语料实现远超传统模型的语言理解与生成能力。以下从定义、核心能力、特点及训练流程四个方面详细解析：

一、LLM 的定义

LLM 是指参数量通常达到数百亿甚至千亿级，并在数万亿 token 的海量无监督文本上进行预训练的语言模型。其本质是通过“预测下一个 token”的自监督任务（如因果语言模型，CLM）学习语言规律和世界知识，最终具备强大的上下文理解、指令遵循和文本生成能力。

与传统 PLM 的区别：
传统 PLM（如 BERT）参数量通常在数十亿以内，训练数据量较小（如 BERT 使用 33 亿 token），而 LLM 参数量普遍超过百亿（如 GPT-3 为 1750 亿参数），训练数据量达到数百亿至数万亿 token，因此能展现出“涌现能力”（见下文）。
标志性模型：GPT-3 被认为是首个真正意义上的 LLM，后续的 ChatGPT、LLaMA、Qwen 等均属于这一范畴。

二、LLM 的核心能力

涌现能力（Emergent Abilities）
当模型参数和训练数据达到一定规模后，会突然展现出小规模模型不具备的复杂能力，例如逻

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

lxltom

关注关注

34
点赞
踩
10

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

【AutoGPT】LangChain 快速入门指南（中文版）

AI天才研究院

05-25

2万+

虽然聊天模型在底层使用语言模型，但它们公开的接口有点不同：它们公开的不是“文本输入、文本输出”API，而是“聊天消息”作为输入和输出的接口。这与 Memory for LLM 之间的主要区别在于，我们可以将它们保留为自己唯一的内存对象，而不是试图将所有以前的消息压缩成一个字符串。扩展前面的示例，我们可以构造一个 LLMChain，它接受用户输入，使用 PromptTemplate 对其进行格式化，然后将格式化的响应传递给 LLM。这是一种较简单的链类型，但了解它的工作原理将为您处理更复杂的链做好准备。

大模型学习（Datawhale_Happy-LLM）笔记1：内容介绍与前言

lxltom的博客

06-16

513

一种基于深度学习的人工智能模型，通过在大规模文本数据上进行训练，能够理解和生成人类语言。

参与评论您还未登录，请先登录后发表或查看评论

大模型学习（Datawhale_Happy-LLM）笔记6: Encoder-only PLM

lxltom的博客

06-29

1133

Google 选择了对 Transformer 中的 Encoder 层进行优化，通过将 Encoder 层进行堆叠，扩大模型参数，结合预训练任务 (MLM, Masked Language Model) 进一步推动了预训练+微调范式的发展。

【笔记】happy-llm 第三章预训练语言模型

ReedFoley的博客

06-30

1040

【笔记】happy-llm 第三章预训练语言模型

【笔记】 happy-llm 第七章 大模型应用

ReedFoley的博客

07-12

594

【笔记】 happy-llm 第七章 大模型应用

Datawhale happy-llm TASK 5 3.1 Encoder-only PLM 笔记（BERT）《待复盘》

m0_71827731的博客

08-27

628

教程Transformer 结构主要由 Encoder、Decoder 两个部分组成。针对 Encoder、Decoder 的特点，引入 ELMo 的预训练思路，开始出现不同的、对 Transformer 进行优化的思路。*ELMo:自然语言处理中的动态词向量模型（Embeddings from Language Models）Google :仅选择了 Encoder 层，通过将 Encoder 层进行堆叠，再提出不同的预训练任务-，打造了一统任务的代表模型——。

[Happy-LLM] day1 LLM基本概念及学习基本要求

OvO_ll的博客

06-16

139

大型语言模型（Large Language Model, LLM）是一种基于深度学习技术构建的语言生成和理解工具，是 NLP 领域经典研究方法预训练语言模型的一种衍生成果。其核心是使用大规模数据集对模型进行训练，从而使其能够生成自然语言文本或理解语言文本的含义。这些模型通过层叠的神经网络结构，学习并模拟人类语言的复杂规律，达到接近人类水平的文本生成能力。

【DataWhale】快乐学习大模型 | 202507，Task01笔记

maxmon

07-14

1061

到2020年接触pytorch做了计算机视觉图像分类，到2021年做了目标检测，2022年做了文本实体抽取，2023年做了Agent。（还有一些GAN、扩散模型等和图片生成有关的，3D卷积等和视频有关的，RL等游戏智能体相关的，ViT等Transformer和视觉结合的，图里先不表现）说起来，到底多大才算大语言模型最开始挺有争议的，现在0.3B的模型也开始出现了（如文心开源的 ERNIE-4.5-0.3B-PT），我的感觉是用了一定参数量的语言模型就能叫LLM，有用效果好就行。Transformer架构。

【DataWhale】快乐学习大模型 | 202507，Task06笔记

maxmon

07-23

871

(Next Sentence Prediction), 下一句预测，BERT的另一个预训练任务，通过判断两个句子是否是连续的上下文来训练模型的句级语义关系拟合能力。: (Robustly Optimized BERT Approach), 一种对BERT进行优化的预训练模型，通过改进预训练任务和使用更大规模的预训练数据来提升性能。: (Sentence Order Prediction), 句子顺序预测，ALBERT提出的预训练任务，通过判断两个句子的顺序关系来增加预训练的难度。

大语言模型(LLM)入门学习路线图，从零基础到精通，理论与实践结合的最佳路径！_llm算法学习

2401_84208172的博客

05-15

1183

Github项目上有一个大语言模型学习路线笔记，它全面涵盖了大语言模型的所需的基础知识学习，LLM前沿算法和架构，以及如何将大语言模型进行工程化实践。这份资料是初学者或有一定基础的开发/算法人员入门活深入大型语言模型学习的优秀参考。这份资料重点介绍了我们应该掌握哪些核心知识，并推荐了一系列优质的学习视频和博客，旨在帮助大家系统性地掌握大型语言模型的相关技术。

【AI学习-comfyUI学习-第十二节-FLUX局部重绘工作流-各个部分学习-第十二节】

qq_22146161的博客

12-02

834

最近，学习comfyUI，这也是AI的一部分，想将相关学习到的东西尽可能记录下来。加载图像这就是上传的那张桥墩照片没问题这也算各一个开始吧，我也在学习摸索中。

windows上位机开发学习（二）计时器案例（下） int大小

qq_43091070的博客

11-29

912

本文介绍了Windows上位机开发中计时器案例的代码实现过程。首先通过工具箱添加Timer控件并设置1秒间隔，然后详细讲解了核心代码：1)声明全局变量记录时间；2)实现"开始"按钮点击事件，解析用户输入并初始化计时器；3)编写Timer的Tick事件处理逻辑，每秒更新界面并判断倒计时结束。文章还展示了完成效果图，并附带单片机int类型大小对照表。最后提供了C#串口通信编程的学习参考网址，欢迎交流讨论。

C++基础：Stanford CS106L学习笔记 1 类型与结构

WM2101的博客

12-02

287

本文介绍了C++的类型系统和结构体特性。在类型系统方面，C++采用静态类型，变量类型一旦确定不可更改，与Python的动态类型形成对比。静态类型能提高效率并减少运行时错误。文章还介绍了using类型别名、auto类型推断以及函数重载等现代类型特性。在结构体方面，展示了如何定义和使用结构体，以及使用std::pair模板简化多值返回的实现方式。通过对比Python和C++的代码示例，突出了C++在类型安全性和编译时检查方面的优势。

【Prompt学习技能树地图】LangChain原理及应用操作指南

致力于成为一名data scientist 的奋斗者

12-03

474

基础层主要解决两个核心问题：模型调用的统一化和数据存储的标准化。通过抽象接口设计，为上层应用提供了稳定、可预测的编程模型。表3.2：基础层核心组件概览组件类别核心功能解决的关键问题典型实现模型抽象统一模型调用接口屏蔽不同模型API差异存储抽象统一数据访问方式标准化各类存储系统操作文档处理多格式文档加载与转换统一文档处理流程PDF、HTML、Markdown解析接口规范定义标准化调用契约确保组件间兼容性BaseLLM、VectorStore接口。

DeepSeekMath-V2学习

hang on it more longer

11-29

906

DeepSeekMath-V2 通过 **"生成器 - 验证器 - 元验证器" 三位一体架构和"验证器先行" 训练策略 **，实现了 AI 数学推理的质的飞跃，不仅在顶级数学竞赛中达到人类金牌水平，更建立了一个能够自我验证、自我完善的推理系统，为 AI 在科学证明、复杂推理领域的应用开辟了新道路。注：本介绍基于 DeepSeekAI 于 2025 年 11 月 27 日发布的官方论文和技术文档。

学习：《The QUIC Transport Protocol: Design and Internet-Scale Deployment》

qq_45913654的博客

12-02

535

QUIC协议是基于UDP的新型传输协议，旨在解决TCP协议在互联网环境中的固有缺陷。

鸿蒙学习实战之路：设备能力检测：自适应不同硬件环境

u011864152的博客

11-29

2574

设备能力检测是指应用程序在运行时识别当前设备硬件特性，并据此调整应用行为的技术。屏幕尺寸和分辨率检测传感器可用性检查硬件性能评估外设连接状态监控。

【matlab】simulink实践经验（12.3）

大模型学习 （Datawhale_Happy-LLM）笔记9: 大语言模型（Large Language Model, LLM）

大模型学习 （Datawhale_Happy-LLM）笔记9: 大语言模型（Large Language Model, LLM）

什么是 LLM（Large Language Model，大语言模型或大型语言模型）

一、LLM 的定义

二、LLM 的核心能力

大模型学习（Datawhale_Happy-LLM）笔记9: 大语言模型（Large Language Model, LLM）

大模型学习（Datawhale_Happy-LLM）笔记9: 大语言模型（Large Language Model, LLM）