随着 ChatGPT、Claude 等 AI 工具走进我们的日常,很多人都对“大语言模型(LLM)”和“Token”这两个概念产生了好奇:
它到底是怎么工作的?为什么你一句话它就能理解、回答、甚至写诗写代码?本篇文章将用通俗+技术结合的方式,把核心原理拆解给你看。
一、语言模型是怎么学会“说话”的?
简单来说,大语言模型是通过“预测下一个词/字符”学会语言的。训练流程看起来像这样:
输入一段文字,让模型猜接下来的一个词。猜得准,就奖励;猜错了,就惩罚。
不断重复这个过程几千亿次,它就学会了人类的语言习惯。
更具体点,它的训练过程可以拆成以下几步:
-
准备海量文本数据:比如书籍、网页、百科内容,词量级别达到千亿。
-
输入一个句子片段:例如,“北京是中国的……”,让模型预测下一个词是“首都”。
-
比较预测与真实结果的差异,调整模型参数(这一步叫做“反向传播”)。
-
重复以上步骤,直到模型预测能力足够强。
经过这种方式训练出来的模型,就能生成各种连贯、有逻辑的语言内容,比如你现在正在用的 ChatGPT。
基础语言模型 vs 指令微调模型
语言模型的发展大致分为两个阶段:
1. 基础语言模型(Base LLM)
-
训练方式:只是单纯学着“预测下一个词”。
-
表现特点:很会“接话”,但不一定理解你的意思。
-
举个例子:
get_completion("中国的首都是哪里?")
模型可能会回答:“中国最大城市是什么?中国人口是多少?”
——因为它从网上学会的是各种“中国相关的问答列表”,而不是明确回答问题。
2. 指令微调模型(Instruction Tuned LLM)
-
训练方式:额外加入“指令 + 回答”的示例(比如用户问什么、应该怎么答)。
-
表现特点:更懂指令、更擅长对话、更贴近实际需求。
-
优化方法:用小数据集进行微调,再引入人类评分 + 强化学习(RLHF)进一步优化。
比如训练后的 ChatGPT,在你问“中国的首都是哪里?”时,会直接回答“北京”,而不会胡乱联想。
模型训练全流程总结一下:
1. 预训练(Base LLM) → 预测下一个词 → 学会语言结构
2. 指令微调(Instruction Tuning) → 学会听懂指令
3. 人类反馈优化(RLHF)→ 输出更有用、更真实、更安全
而从基础模型到指令调优模型,所需的数据量和训练时间都大幅下降。基础模型训练可能要几个月,而微调只需几天。
二、Token:模型的最小处理单位
说到这,有个隐藏的技术细节:语言模型不是按“词”来预测的,而是按“token”来预测的。
什么是 Token?
Token 就是语言模型用来处理的最小单位,不一定是一个词,也可能是一个字母、一个词根,甚至只是几个字符的组合。
比如下面这个句子:
Learning new things is fun!
它会被分成这样几个 token:
["Learning", " new", " things", " is", " fun", "!"]
每个 token 不一定是一个完整词,甚至可能是词的一部分。
再比如这个词:Prompting
被 tokenizer 分成了:
["Prom", "pt", "ing"]
好处是:这种机制可以大大降低模型的词汇表规模,也提高了泛化能力。
分词器真的会影响理解效果
举个例子。你让模型反转 “lollipop” 这个词:
get_completion("Take the letters in lollipop and reverse them")
模型可能回答:
“pillipol”
是不是看着怪怪的?这其实是 tokenizer 在捣乱。它把 "lollipop" 分成了:
["l", "oll", "ipop"]
于是模型只反转了这些 token,而不是字母。
解决方法是:让每个字母都成为独立 token。比如:
get_completion("Take the letters in l-o-l-l-i-p-o-p and reverse them")
结果就正确了:
p-o-p-i-l-l-o-l
关于 Token,你还需要知道这些
-
对英文来说:平均 1 个 token ≈ 4 个字符 ≈ 0.75 个单词
-
对中文来说:1 个 token 通常对应 1 个汉字或半个词
-
不同模型有 token 限制,比如:
-
GPT-3.5 的总 token 限制是 4096
-
GPT-4(部分版本)可以支持 8K、32K,甚至更多
-
⚠️ 注意:这个限制是输入 + 输出之和,也就是说,你 prompt 越长,模型能返回的内容就越短。
总结一下
-
大语言模型是通过预测下一个 token 学会语言的;
-
基础模型更擅长联想,指令微调模型更擅长对话;
-
token 是模型处理文本的基本单位,分词方式会影响结果;
-
开发者需要理解 token 的规则,才能更好地使用和设计 prompt。