什么是语言模型和 Token？一文搞懂大语言模型的核心机制

最新推荐文章于 2025-07-11 16:31:03 发布

原创最新推荐文章于 2025-07-11 16:31:03 发布 · 1.5k 阅读

CC 4.0 BY-SA版权

文章标签：

随着 ChatGPT、Claude 等 AI 工具走进我们的日常，很多人都对“大语言模型（LLM）”和“Token”这两个概念产生了好奇：
它到底是怎么工作的？为什么你一句话它就能理解、回答、甚至写诗写代码？本篇文章将用通俗+技术结合的方式，把核心原理拆解给你看。

简单来说，大语言模型是通过“预测下一个词/字符”学会语言的。训练流程看起来像这样：

输入一段文字，让模型猜接下来的一个词。猜得准，就奖励；猜错了，就惩罚。
不断重复这个过程几千亿次，它就学会了人类的语言习惯。

更具体点，它的训练过程可以拆成以下几步：

经过这种方式训练出来的模型，就能生成各种连贯、有逻辑的语言内容，比如你现在正在用的 ChatGPT。

语言模型的发展大致分为两个阶段：

get_completion("中国的首都是哪里？")

模型可能会回答：“中国最大城市是什么？中国人口是多少？”
——因为它从网上学会的是各种“中国相关的问答列表”，而不是明确回答问题。

比如训练后的 ChatGPT，在你问“中国的首都是哪里？”时，会直接回答“北京”，而不会胡乱联想。

1. 预训练（Base LLM） → 预测下一个词 → 学会语言结构  
2. 指令微调（Instruction Tuning） → 学会听懂指令  
3. 人类反馈优化（RLHF）→ 输出更有用、更真实、更安全

而从基础模型到指令调优模型，所需的数据量和训练时间都大幅下降。基础模型训练可能要几个月，而微调只需几天。

说到这，有个隐藏的技术细节：语言模型不是按“词”来预测的，而是按“token”来预测的。

Token 就是语言模型用来处理的最小单位，不一定是一个词，也可能是一个字母、一个词根，甚至只是几个字符的组合。

比如下面这个句子：

Learning new things is fun!

它会被分成这样几个 token：

["Learning", " new", " things", " is", " fun", "!"]

每个 token 不一定是一个完整词，甚至可能是词的一部分。

再比如这个词：Prompting

被 tokenizer 分成了：

["Prom", "pt", "ing"]

好处是：这种机制可以大大降低模型的词汇表规模，也提高了泛化能力。

举个例子。你让模型反转 “lollipop” 这个词：

get_completion("Take the letters in lollipop and reverse them")

模型可能回答：

“pillipol”

是不是看着怪怪的？这其实是 tokenizer 在捣乱。它把 "lollipop" 分成了：

["l", "oll", "ipop"]

于是模型只反转了这些 token，而不是字母。

解决方法是：让每个字母都成为独立 token。比如：

get_completion("Take the letters in l-o-l-l-i-p-o-p and reverse them")

结果就正确了：

p-o-p-i-l-l-o-l

对英文来说：平均 1 个 token ≈ 4 个字符 ≈ 0.75 个单词
对中文来说：1 个 token 通常对应 1 个汉字或半个词
不同模型有 token 限制，比如：
- GPT-3.5 的总 token 限制是 4096
- GPT-4（部分版本）可以支持 8K、32K，甚至更多

⚠️ 注意：这个限制是输入 + 输出之和，也就是说，你 prompt 越长，模型能返回的内容就越短。