一文读懂大模型如何理解你的语言：Token与Embedding，建议收藏学习

原创于 2025-12-07 09:15:00 发布 · 824 阅读

10 ·

CC 4.0 BY-SA版权

文章标签：

#embedding #学习 #人工智能 #大模型 #程序员 #ai #产品经理

你有没有想过：

当你在大模型对话框里敲下一句：「帮我写一份年终总结」，
在大模型眼里到底出现了什么呢？

对大模型来说，它不是在看「中文句子」，而是在看一串又一串数字。

这一篇，我们就用尽量不烧脑的方式，讲清楚两个核心概念：

✅ Token：AI 看世界的「字」
✅ Embedding：把语言变成坐标的「翻译器」

理解了这两个东西，你基本就搞懂了：
「AI 到底是怎么听懂你说的话的？」

一、AI 其实看不到「字」，只能看到数字

先说结论：

大模型看到的，从来不是「文字」，而是一串被编码过的数字。

从人类视角看，我们输入的是：

「帮我写一份年终总结，突出项目成果和个人成长。」

从模型视角看，这句话会经历大致这么几个阶段：

字符级别

：帮 / 我 / 写 / 一 / 份 / …
切成 Token

：「帮我」/「写」/「一份」/「年终」/「总结」/ …
映射成编号

：[18293, 5021, 9304, 7216, 183, …]（举例）
转换成向量（Embedding）

：每个编号 → 一个高维向量
送进大模型

：后面才是注意力、推理、生成等过程

这一篇文章就专门聚焦在第 2 步和第 4 步：

文本是怎么被切成 Token 的？
这些 Token 又是怎么变成 Embedding 向量的？

✅ 小结：

人看的是「字和句子」，模型看到的是一串编号和一堆向量。 Token 和 Embedding，就是把语言一步步变成这些数字的关键桥梁。

二、什么是 Token？——AI 世界里的「字」

1. Token 不是字，也不是词，是「介于两者之间的单位」

在人类世界里，我们习惯这样看语言：

英文

：字母 → 单词 → 句子
中文

：汉字 → 词语 → 句子

在大模型的世界里，多了一个非常关键的中间层：Token。

你可以暂时把它理解为：

为了让电脑「既不太细、也不太粗」地切分语言，
专门设计出来的一种**「最合适的单位」**。

一个 Token 可能是：

一个完整的英文单词：hello
一个汉字：帮
半个单词：inter、esting
一个标点：，、。、？
甚至是一个空格：" "（空格本身在英文里也是 Token）

严格一点说：

不同模型的 Token 规则不一样，
有的中文模型以「字」为主，有的会把高频词（比如「人工智能」「机器学习」）收成一个 Token，
但不会像语文课那样，一个个手工标注「词语」。

Token 不是自然语言里的「字」或「词」，
而是大模型自己定义的「看的单位」。

2. 为什么需要 Token 这种「怪异的单位」？

如果我们直接用「字」或「词」，会有很多问题：

只用「字」：

英文会被切得太碎：interesting → i / n / t / e / r / e / s / t / i / n / g
模型很难学到「单词级」的规律

只用「词」：

生僻词、专有名词太多：ChatGPT、DeepSeek、Qwen3…
词表可能大到存不下、算不动

Token 的目标，就是在这两者之间找一个平衡点：

高频、常见、很完整的词 → 尽量作为一个 Token
少见词、生造词 → 拆成若干 Token 来组合表示
中文则往往以「字」为基础，再把高频词组并在一起

三、Token 是怎么切出来的？——直白理解 BPE 思路

不同模型用的具体算法不完全一样，但都比较接近。

以常见的 **BPE（Byte Pair Encoding）**思路为例，可以这样理解：

BPE 做的事情，其实就是：
在海量文本里统计「谁总是挨着谁」，
然后把这些高频组合打包成新的单位。

1. 第一步：先从「最细」的单位开始

以英文为例，一开始我们只认识：

字母：a–z
标点：, . ? !
空格、数字等

所有文本先被拆成这些最小单位，比如：

interesting → i / n / t / e / r / e / s / t / i / n / g

2. 第二步：合并那些「经常腻在一起」的组合

算法会在大量语料里统计：

哪两个字符 / Token 总是频繁一起出现？

比如发现：

i

和 n 很经常挨在一起 → 合并为 in
in

和 g 也很常见 → 合并为 ing
interest

整体也足够常见 → 可能进一步被合成为一个 Token

这就是 BPE 的核心：

不断把「最常一起出现的一对」合并成新的 Token，
有点像在语料库里办「团建相亲会」：

总在一起手牵手出现的，就发一张「合影」当作新 Token。

一直合到：词表大小达到预设上限，或者再合并收益不大为止。

💡 补充说明：

现实里还有 WordPiece、SentencePiece、Unigram 等变体，
但核心思想都类似：

从小单位出发，根据统计规律，自动长出一套「刚刚好的」语言切分方式。

3. 对中文，大致会是这样：

中文没有天然空格，常见做法有两类（实际实现会更复杂，这里简化）：

方法 1：按字切分 + 合并高频词组

初始单位：单个汉字
通过统计合并出：「年终」、「总结」、「人工智能」这类组合

方法 2：先做一次中文分词，再做 BPE 优化

用中文分词工具切出词语
再通过统计合并/拆分，适配不同场景

所以，一句**「帮我写一份年终总结」**可能会最终被切成：

["帮我", "写", "一份", "年终", "总结"]

有的是字，有的是词，全看当初训练 Token 词表的时候是怎么统计的。

四、从 Token 到编号：词表（Vocabulary）

模型不会直接存 "帮我"、"年终" 这样的字符串，而是维护一张巨大的词表（Vocabulary）：

键（key）

：Token 字面形式，比如 "帮我"、"年终"、"AI"
值（value）

：一个整数编号，比如：18293、7216、305（示意）

当你输入一句话时，模型会做一件看上去很「机械」的事：

把所有 Token 替换成它们的编号 → 得到一长串整数。

例如：

「帮我写一份年终总结」→ ["帮我", "写", "一份", "年终", "总结"]→ [18293, 5021, 9304, 7216, 183]（假设编号）

到这一步为止，模型看到的是纯数字序列。

但问题来了：

数字之间没有天然的「近义」关系：

18293 并不「比」18294 更接近「总结」
纯编号无法表达「语义相似度」

我们需要再走一步，把这些编号变成可以比较远近的东西。

这一步，就是 Embedding 要完成的任务。

五、什么是 Embedding？——把词丢进「语义坐标系」

1. 想象一个超高维的「语义空间」

想象你有一个很大的空间（实际上维度通常是 512、768、1024、1536…）：

某个方向表示「积极 vs 消极」
某个方向表示「时间相关 vs 空间相关」
某个方向表示「工作/学习 vs 娱乐」
……还有成百上千种抽象维度

每一个 Token，都会被映射到这个空间中的一个点。

这个点的位置，用一个向量来表示，也就是我们常说的：

Embedding 向量 / 语义向量

比如（示意）：

Embedding("年终总结") = [0.13, -0.87, 0.05, ..., 0.41]

于是：

「总结」会离「复盘」「报告」「汇总」比较近
「猫」会离「狗」「宠物」「猫咪」比较近
「申请加班」会离「项目」「deadline」「工作」比较近

💡 注意：

这里的「积极/消极」「工作/娱乐」，只是为了方便理解的想象维度。

真正的维度是模型在训练中自己学出来的，
我们通常只能通过实验去猜某个方向大概对应什么含义。

核心规律：

距离近

→ 语义相似
方向相似

→ 语义相关

2. Embedding 和「词典解释」的本质区别

词典解释：

用自然语言讲这个词是什么意思
对人类友好，对计算机仍是一堆符号

Embedding：

用一串数字编码「这个词和其他所有词的关系」
模型只要算一遍向量相似度，就知道谁跟谁更像

所以你经常会听到一句话：

Embedding，是模型「看世界的坐标」。

换句话说：

词典在解释一个词，Embedding 在给它安一个住址。

六、Embedding 是怎么训练出来的？

这里不推公式，用「直觉版」来理解。

1. 早期方法：谁老在一起出现，谁就更像

早期的 word2vec、GloVe 这类词向量，基本都赖着一个朴素想法：

经常一起出现的词，语义可能有关。

比如你在大量语料里看到：

「年终」——「总结」经常挨在一起
「模型」——「训练」「推理」「参数」总是联合出现

训练时：

看到「年终」，就鼓励「总结」这个词的向量靠近它
看到「模型」，就鼓励「训练」「推理」「参数」这几个词向它们的向量聚拢

更严谨一点说，是：

模型在一个「滑动窗口」里，看谁经常和谁一起出现，
窗口里「同框次数」越多，向量就越被拉近。

反复训练之后，整个向量空间会慢慢形成一种「结构」：

——相似的词自然就挤到了一块。

2. 在大模型里：Embedding 和「大脑」一起长大

在 GPT、Qwen、DeepSeek 这类大模型中，Embedding 层：

就是整个网络最靠前的一层
不会单独训练，而是和 Transformer 全部参数一起端到端训练
训练目标通常是：
给前面的 Token 作为上下文，让模型预测下一个 Token 的概率分布

在这个过程中：

如果某种 Embedding 排列方式有助于更好地预测下一个 Token
梯度更新就会把向量往那个方向推
久而久之，你就得到了一套「既合模型胃口、又很有语义感」的 Embedding

七、为什么要关心 Token 和 Embedding？

从「怎么更聪明地用大模型」的角度，理解这俩词非常有用。

1. 「字数限制」其实是「Token 限制」

你肯定见过这样的参数：

模型支持 8K / 32K / 200K Tokens 上下文

这真正限制的不是：

❌ X 个汉字
❌ 或 Y 个字节

而是：

✅ 你这整段输入，被切成 Token 之后，一共多少个 Token。

这会带来几个很实际的影响：

中文通常比等长英文更「省 Token」
代码 + 中英混排的内容会特别「费 Token」
Prompt 里废话太多，会明显「挤占」上下文空间

所以在实战里：

Prompt 尽量清晰、紧凑、结构化

，能明显减少 Token 浪费
大量文档让模型阅读前，最好有一层预压缩/预筛选

下次再看到「8K / 32K Token 上下文」，
你可以在心里自动翻译成：

「哦，也就是这次聊天最多能塞多少有用信息。」

2. 有了 Embedding，你能做很多「聪明的工具」

Embedding 不只是给大模型自己用，你也可以直接拿出来做应用：

语义搜索：

用户搜「请假流程」，
你不光能匹配到标题里写着「请假流程」的文档，
还能找到叫「休假申请规范」「年假审批指引」的内容。

内容推荐：

看了一篇「年终总结怎么写」，
可以推荐「项目复盘模板」「季度复盘 checklist」之类相近内容。

文档聚类 / 归档：

把一堆会议纪要、周报、需求文档丢进 Embedding 空间，
自动分成「产品相关」「运营相关」「行政相关」几大类。

本质都是同一件事：

先把文本变成向量，再用「距离」和「角度」来衡量相似度。

几乎所有「聪明一点的搜索、推荐和归档」，
背后多少都在用 Embedding。

3. 你会发现 Prompt 设计，其实没那么「玄学」

当你知道：

模型看的是 Token 序列
每个 Token 都会变成固定维度的向量
上下文越长，计算复杂度越高

很多经验之谈就变得顺理成章，比如：

「同样一句话，写得更短更清晰，效果往往更好」
「提前给清晰、结构化的示例，有助于模型在向量空间里对齐你的意图」
「把关键信息放在前后，更容易被注意力机制捕捉到」

八、用一句话收个尾

如果用一句不太严谨、但挺形象的话来概括：

Token，是 AI 的「字」；Embedding，是 AI 的「坐标」。

你输入的每一句话，
都会被拆成一串「字」，
再被丢进一个高维的「语义宇宙」里，
模型就在那个宇宙里，
用线性代数的方式，
去「听懂」你说的话。

大模型看世界，不是用眼睛，也不是用语文课本，
而是一串 Token 和一张看不见的语义坐标系。

当你下次再看到「Token 限制」「Embedding 模型」「语义向量」这些词时，希望今天这篇，可以在你脑海里浮现出一幅简单、可视化的图。

普通人如何抓住AI大模型的风口？

领取方式在文末

为什么要学习大模型？

目前AI大模型的技术岗位与能力培养随着人工智能技术的迅速发展和应用，大模型作为其中的重要组成部分，正逐渐成为推动人工智能发展的重要引擎。大模型以其强大的数据处理和模式识别能力，广泛应用于自然语言处理、计算机视觉、智能推荐等领域，为各行各业带来了革命性的改变和机遇。

目前，开源人工智能大模型已应用于医疗、政务、法律、汽车、娱乐、金融、互联网、教育、制造业、企业服务等多个场景，其中，应用于金融、企业服务、制造业和法律领域的大模型在本次调研中占比超过 30%。
在这里插入图片描述

随着AI大模型技术的迅速发展，相关岗位的需求也日益增加。大模型产业链催生了一批高薪新职业：
在这里插入图片描述

人工智能大潮已来，不加入就可能被淘汰。如果你是技术人，尤其是互联网从业者，现在就开始学习AI大模型技术，真的是给你的人生一个重要建议！

最后

只要你真心想学习AI大模型技术，这份精心整理的学习资料我愿意无偿分享给你，但是想学技术去乱搞的人别来找我！

在当前这个人工智能高速发展的时代，AI大模型正在深刻改变各行各业。我国对高水平AI人才的需求也日益增长，真正懂技术、能落地的人才依旧紧缺。我也希望通过这份资料，能够帮助更多有志于AI领域的朋友入门并深入学习。

真诚无偿分享！！！
vx扫描下方二维码即可
加上后会一个个给大家发
在这里插入图片描述

大模型全套学习资料展示

自我们与MoPaaS魔泊云合作以来，我们不断打磨课程体系与技术内容，在细节上精益求精，同时在技术层面也新增了许多前沿且实用的内容，力求为大家带来更系统、更实战、更落地的大模型学习体验。

希望这份系统、实用的大模型学习路径，能够帮助你从零入门，进阶到实战，真正掌握AI时代的核心技能！

01 教学内容

从零到精通完整闭环：【基础理论 →RAG开发 → Agent设计 → 模型微调与私有化部署调→热门技术】5大模块，内容比传统教材更贴近企业实战！
大量真实项目案例： 带你亲自上手搞数据清洗、模型调优这些硬核操作，把课本知识变成真本事‌！

02适学人群

应届毕业生‌： 无工作经验但想要系统学习AI大模型技术，期待通过实战项目掌握核心技术。

零基础转型‌： 非技术背景但关注AI应用场景，计划通过低代码工具实现“AI+行业”跨界‌。

业务赋能突破瓶颈： 传统开发者（Java/前端等）学习Transformer架构与LangChain框架，向AI全栈工程师转型‌。

vx扫描下方二维码即可
在这里插入图片描述

本教程比较珍贵，仅限大家自行学习，不要传播！更严禁商用！

03 入门到进阶学习路线图

大模型学习路线图，整体分为5个大的阶段：

04 视频和书籍PDF合集

从0到掌握主流大模型技术视频教程（涵盖模型训练、微调、RAG、LangChain、Agent开发等实战方向）

新手必备的大模型学习PDF书单来了！全是硬核知识，帮你少走弯路（不吹牛，真有用）

05 行业报告+白皮书合集

收集70+报告与白皮书，了解行业最新动态！

06 90+份面试题/经验

AI大模型岗位面试经验总结（谁学技术不是为了赚$呢，找个好的岗位很重要）
在这里插入图片描述

07 deepseek部署包+技巧大全

在这里插入图片描述

由于篇幅有限

只展示部分资料

并且还在持续更新中…

真诚无偿分享！！！
vx扫描下方二维码即可
加上后会一个个给大家发
在这里插入图片描述