大模型学习 (Datawhale_Happy-LLM)笔记9: 大语言模型(Large Language Model, LLM)

大模型学习 (Datawhale_Happy-LLM)笔记9: 大语言模型(Large Language Model, LLM)

什么是 LLM(Large Language Model,大语言模型或大型语言模型)

LLM 是一种在预训练语言模型(PLM)基础上发展而来的先进模型,其核心特点是通过大规模参数海量训练语料实现远超传统模型的语言理解与生成能力。以下从定义、核心能力、特点及训练流程四个方面详细解析:

一、LLM 的定义

LLM 是指参数量通常达到数百亿甚至千亿级,并在数万亿 token 的海量无监督文本上进行预训练的语言模型。其本质是通过“预测下一个 token”的自监督任务(如因果语言模型,CLM)学习语言规律和世界知识,最终具备强大的上下文理解、指令遵循和文本生成能力。

  • 与传统 PLM 的区别
    传统 PLM(如 BERT)参数量通常在数十亿以内,训练数据量较小(如 BERT 使用 33 亿 token),而 LLM 参数量普遍超过百亿(如 GPT-3 为 1750 亿参数),训练数据量达到数百亿至数万亿 token,因此能展现出“涌现能力”(见下文)。
  • 标志性模型:GPT-3 被认为是首个真正意义上的 LLM,后续的 ChatGPT、LLaMA、Qwen 等均属于这一范畴。
二、LLM 的核心能力
  1. 涌现能力(Emergent Abilities)
    当模型参数和训练数据达到一定规模后,会突然展现出小规模模型不具备的复杂能力,例如逻

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值