你有没有想过:
当你在大模型对话框里敲下一句:「帮我写一份年终总结」,
在大模型眼里到底出现了什么呢?
对大模型来说,它不是在看「中文句子」,而是在看一串又一串数字。
这一篇,我们就用尽量不烧脑的方式,讲清楚两个核心概念:
✅ Token:AI 看世界的「字」
✅ Embedding:把语言变成坐标的「翻译器」
理解了这两个东西,你基本就搞懂了:
「AI 到底是怎么听懂你说的话的?」
一、AI 其实看不到「字」,只能看到数字
先说结论:
大模型看到的,从来不是「文字」,而是一串被编码过的数字。
从人类视角看,我们输入的是:
「帮我写一份年终总结,突出项目成果和个人成长。」
从模型视角看,这句话会经历大致这么几个阶段:
-
字符级别
:帮 / 我 / 写 / 一 / 份 / …
-
切成 Token
:「帮我」/「写」/「一份」/「年终」/「总结」/ …
-
映射成编号
:[18293, 5021, 9304, 7216, 183, …](举例)
-
转换成向量(Embedding)
:每个编号 → 一个高维向量
-
送进大模型
:后面才是注意力、推理、生成等过程
这一篇文章就专门聚焦在第 2 步和第 4 步:
- 文本是怎么被切成 Token 的?
- 这些 Token 又是怎么变成 Embedding 向量的?
✅ 小结:
人看的是「字和句子」,模型看到的是一串编号和一堆向量。 Token 和 Embedding,就是把语言一步步变成这些数字的关键桥梁。

二、什么是 Token?——AI 世界里的「字」
1. Token 不是字,也不是词,是「介于两者之间的单位」
在人类世界里,我们习惯这样看语言:
-
英文
:字母 → 单词 → 句子
-
中文
:汉字 → 词语 → 句子
在大模型的世界里,多了一个非常关键的中间层:Token。
你可以暂时把它理解为:
为了让电脑「既不太细、也不太粗」地切分语言,
专门设计出来的一种**「最合适的单位」**。
一个 Token 可能是:
- 一个完整的英文单词:
hello - 一个汉字:
帮 - 半个单词:
inter、esting - 一个标点:
,、。、? - 甚至是一个空格:
" "(空格本身在英文里也是 Token)
严格一点说:
不同模型的 Token 规则不一样,
有的中文模型以「字」为主,有的会把高频词(比如「人工智能」「机器学习」)收成一个 Token,
但不会像语文课那样,一个个手工标注「词语」。
Token 不是自然语言里的「字」或「词」,
而是大模型自己定义的「看的单位」。
2. 为什么需要 Token 这种「怪异的单位」?
如果我们直接用「字」或「词」,会有很多问题:
只用「字」:
- 英文会被切得太碎:
interesting→i / n / t / e / r / e / s / t / i / n / g - 模型很难学到「单词级」的规律
只用「词」:
- 生僻词、专有名词太多:ChatGPT、DeepSeek、Qwen3…
- 词表可能大到存不下、算不动
Token 的目标,就是在这两者之间找一个平衡点:
- 高频、常见、很完整的词 → 尽量作为一个 Token
- 少见词、生造词 → 拆成若干 Token 来组合表示
- 中文则往往以「字」为基础,再把高频词组并在一起
三、Token 是怎么切出来的?——直白理解 BPE 思路
不同模型用的具体算法不完全一样,但都比较接近。
以常见的 **BPE(Byte Pair Encoding)**思路为例,可以这样理解:
BPE 做的事情,其实就是:
在海量文本里统计「谁总是挨着谁」,
然后把这些高频组合打包成新的单位。
1. 第一步:先从「最细」的单位开始
以英文为例,一开始我们只认识:
- 字母:a–z
- 标点:, . ? !
- 空格、数字等
所有文本先被拆成这些最小单位,比如:
interesting → i / n / t / e / r / e / s / t / i / n / g
2. 第二步:合并那些「经常腻在一起」的组合
算法会在大量语料里统计:
哪两个字符 / Token 总是频繁一起出现?
比如发现:
-
i和
n很经常挨在一起 → 合并为in -
in和
g也很常见 → 合并为ing -
interest整体也足够常见 → 可能进一步被合成为一个 Token
这就是 BPE 的核心:
不断把「最常一起出现的一对」合并成新的 Token,
有点像在语料库里办「团建相亲会」:
总在一起手牵手出现的,就发一张「合影」当作新 Token。
一直合到:词表大小达到预设上限,或者再合并收益不大为止。
💡 补充说明:
现实里还有 WordPiece、SentencePiece、Unigram 等变体,
但核心思想都类似:
从小单位出发,根据统计规律,自动长出一套「刚刚好的」语言切分方式。
3. 对中文,大致会是这样:
中文没有天然空格,常见做法有两类(实际实现会更复杂,这里简化):
方法 1:按字切分 + 合并高频词组
- 初始单位:单个汉字
- 通过统计合并出:「年终」、「总结」、「人工智能」这类组合
方法 2:先做一次中文分词,再做 BPE 优化
- 用中文分词工具切出词语
- 再通过统计合并/拆分,适配不同场景
所以,一句**「帮我写一份年终总结」**可能会最终被切成:
["帮我", "写", "一份", "年终", "总结"]
有的是字,有的是词,全看当初训练 Token 词表的时候是怎么统计的。
四、从 Token 到编号:词表(Vocabulary)
模型不会直接存 "帮我"、"年终" 这样的字符串,而是维护一张巨大的词表(Vocabulary):
-
键(key)
:Token 字面形式,比如
"帮我"、"年终"、"AI" -
值(value)
:一个整数编号,比如:18293、7216、305(示意)
当你输入一句话时,模型会做一件看上去很「机械」的事:
把所有 Token 替换成它们的编号 → 得到一长串整数。
例如:
「帮我写一份年终总结」→ ["帮我", "写", "一份", "年终", "总结"]→ [18293, 5021, 9304, 7216, 183](假设编号)
到这一步为止,模型看到的是纯数字序列。
但问题来了:
数字之间没有天然的「近义」关系:
- 18293 并不「比」18294 更接近「总结」
- 纯编号无法表达「语义相似度」
我们需要再走一步,把这些编号变成可以比较远近的东西。
这一步,就是 Embedding 要完成的任务。
五、什么是 Embedding?——把词丢进「语义坐标系」
1. 想象一个超高维的「语义空间」
想象你有一个很大的空间(实际上维度通常是 512、768、1024、1536…):
- 某个方向表示「积极 vs 消极」
- 某个方向表示「时间相关 vs 空间相关」
- 某个方向表示「工作/学习 vs 娱乐」
- ……还有成百上千种抽象维度
每一个 Token,都会被映射到这个空间中的一个点。
这个点的位置,用一个向量来表示,也就是我们常说的:
Embedding 向量 / 语义向量
比如(示意):
Embedding("年终总结") = [0.13, -0.87, 0.05, ..., 0.41]
于是:
- 「总结」会离「复盘」「报告」「汇总」比较近
- 「猫」会离「狗」「宠物」「猫咪」比较近
- 「申请加班」会离「项目」「deadline」「工作」比较近
💡 注意:
这里的「积极/消极」「工作/娱乐」,只是为了方便理解的想象维度。
真正的维度是模型在训练中自己学出来的,
我们通常只能通过实验去猜某个方向大概对应什么含义。
核心规律:
-
距离近
→ 语义相似
-
方向相似
→ 语义相关
2. Embedding 和「词典解释」的本质区别
词典解释:
- 用自然语言讲这个词是什么意思
- 对人类友好,对计算机仍是一堆符号
Embedding:
- 用一串数字编码「这个词和其他所有词的关系」
- 模型只要算一遍向量相似度,就知道谁跟谁更像
所以你经常会听到一句话:
Embedding,是模型「看世界的坐标」。
换句话说:
词典在解释一个词,Embedding 在给它安一个住址。

六、Embedding 是怎么训练出来的?
这里不推公式,用「直觉版」来理解。
1. 早期方法:谁老在一起出现,谁就更像
早期的 word2vec、GloVe 这类词向量,基本都赖着一个朴素想法:
经常一起出现的词,语义可能有关。
比如你在大量语料里看到:
- 「年终」——「总结」经常挨在一起
- 「模型」——「训练」「推理」「参数」总是联合出现
训练时:
- 看到「年终」,就鼓励「总结」这个词的向量靠近它
- 看到「模型」,就鼓励「训练」「推理」「参数」这几个词向它们的向量聚拢
更严谨一点说,是:
模型在一个「滑动窗口」里,看谁经常和谁一起出现,
窗口里「同框次数」越多,向量就越被拉近。
反复训练之后,整个向量空间会慢慢形成一种「结构」:
——相似的词自然就挤到了一块。
2. 在大模型里:Embedding 和「大脑」一起长大
在 GPT、Qwen、DeepSeek 这类大模型中,Embedding 层:
- 就是整个网络最靠前的一层
- 不会单独训练,而是和 Transformer 全部参数一起端到端训练
- 训练目标通常是:
给前面的 Token 作为上下文,让模型预测下一个 Token 的概率分布
在这个过程中:
- 如果某种 Embedding 排列方式有助于更好地预测下一个 Token
- 梯度更新就会把向量往那个方向推
- 久而久之,你就得到了一套「既合模型胃口、又很有语义感」的 Embedding
七、为什么要关心 Token 和 Embedding?
从「怎么更聪明地用大模型」的角度,理解这俩词非常有用。
1. 「字数限制」其实是「Token 限制」
你肯定见过这样的参数:
模型支持 8K / 32K / 200K Tokens 上下文
这真正限制的不是:
- ❌ X 个汉字
- ❌ 或 Y 个字节
而是:
✅ 你这整段输入,被切成 Token 之后,一共多少个 Token。
这会带来几个很实际的影响:
- 中文通常比等长英文更「省 Token」
- 代码 + 中英混排的内容会特别「费 Token」
- Prompt 里废话太多,会明显「挤占」上下文空间
所以在实战里:
-
Prompt 尽量清晰、紧凑、结构化
,能明显减少 Token 浪费
-
大量文档让模型阅读前,最好有一层预压缩/预筛选
下次再看到「8K / 32K Token 上下文」,
你可以在心里自动翻译成:
「哦,也就是这次聊天最多能塞多少有用信息。」
2. 有了 Embedding,你能做很多「聪明的工具」
Embedding 不只是给大模型自己用,你也可以直接拿出来做应用:
语义搜索:
- 用户搜「请假流程」,
- 你不光能匹配到标题里写着「请假流程」的文档,
- 还能找到叫「休假申请规范」「年假审批指引」的内容。
内容推荐:
- 看了一篇「年终总结怎么写」,
- 可以推荐「项目复盘模板」「季度复盘 checklist」之类相近内容。
文档聚类 / 归档:
- 把一堆会议纪要、周报、需求文档丢进 Embedding 空间,
- 自动分成「产品相关」「运营相关」「行政相关」几大类。
本质都是同一件事:
先把文本变成向量,再用「距离」和「角度」来衡量相似度。
几乎所有「聪明一点的搜索、推荐和归档」,
背后多少都在用 Embedding。
3. 你会发现 Prompt 设计,其实没那么「玄学」
当你知道:
- 模型看的是 Token 序列
- 每个 Token 都会变成固定维度的向量
- 上下文越长,计算复杂度越高
很多经验之谈就变得顺理成章,比如:
- 「同样一句话,写得更短更清晰,效果往往更好」
- 「提前给清晰、结构化的示例,有助于模型在向量空间里对齐你的意图」
- 「把关键信息放在前后,更容易被注意力机制捕捉到」
八、用一句话收个尾
如果用一句不太严谨、但挺形象的话来概括:
Token,是 AI 的「字」;Embedding,是 AI 的「坐标」。
你输入的每一句话,
都会被拆成一串「字」,
再被丢进一个高维的「语义宇宙」里,
模型就在那个宇宙里,
用线性代数的方式,
去「听懂」你说的话。
大模型看世界,不是用眼睛,也不是用语文课本,
而是一串 Token 和一张看不见的语义坐标系。
当你下次再看到「Token 限制」「Embedding 模型」「语义向量」这些词时,希望今天这篇,可以在你脑海里浮现出一幅简单、可视化的图。
普通人如何抓住AI大模型的风口?
领取方式在文末
为什么要学习大模型?
目前AI大模型的技术岗位与能力培养随着人工智能技术的迅速发展和应用 , 大模型作为其中的重要组成部分 , 正逐渐成为推动人工智能发展的重要引擎 。大模型以其强大的数据处理和模式识别能力, 广泛应用于自然语言处理 、计算机视觉 、 智能推荐等领域 ,为各行各业带来了革命性的改变和机遇 。
目前,开源人工智能大模型已应用于医疗、政务、法律、汽车、娱乐、金融、互联网、教育、制造业、企业服务等多个场景,其中,应用于金融、企业服务、制造业和法律领域的大模型在本次调研中占比超过 30%。

随着AI大模型技术的迅速发展,相关岗位的需求也日益增加。大模型产业链催生了一批高薪新职业:

人工智能大潮已来,不加入就可能被淘汰。如果你是技术人,尤其是互联网从业者,现在就开始学习AI大模型技术,真的是给你的人生一个重要建议!
最后
只要你真心想学习AI大模型技术,这份精心整理的学习资料我愿意无偿分享给你,但是想学技术去乱搞的人别来找我!
在当前这个人工智能高速发展的时代,AI大模型正在深刻改变各行各业。我国对高水平AI人才的需求也日益增长,真正懂技术、能落地的人才依旧紧缺。我也希望通过这份资料,能够帮助更多有志于AI领域的朋友入门并深入学习。
真诚无偿分享!!!
vx扫描下方二维码即可
加上后会一个个给大家发

大模型全套学习资料展示
自我们与MoPaaS魔泊云合作以来,我们不断打磨课程体系与技术内容,在细节上精益求精,同时在技术层面也新增了许多前沿且实用的内容,力求为大家带来更系统、更实战、更落地的大模型学习体验。

希望这份系统、实用的大模型学习路径,能够帮助你从零入门,进阶到实战,真正掌握AI时代的核心技能!
01 教学内容

-
从零到精通完整闭环:【基础理论 →RAG开发 → Agent设计 → 模型微调与私有化部署调→热门技术】5大模块,内容比传统教材更贴近企业实战!
-
大量真实项目案例: 带你亲自上手搞数据清洗、模型调优这些硬核操作,把课本知识变成真本事!
02适学人群
应届毕业生: 无工作经验但想要系统学习AI大模型技术,期待通过实战项目掌握核心技术。
零基础转型: 非技术背景但关注AI应用场景,计划通过低代码工具实现“AI+行业”跨界。
业务赋能突破瓶颈: 传统开发者(Java/前端等)学习Transformer架构与LangChain框架,向AI全栈工程师转型。

vx扫描下方二维码即可

本教程比较珍贵,仅限大家自行学习,不要传播!更严禁商用!
03 入门到进阶学习路线图
大模型学习路线图,整体分为5个大的阶段:

04 视频和书籍PDF合集

从0到掌握主流大模型技术视频教程(涵盖模型训练、微调、RAG、LangChain、Agent开发等实战方向)

新手必备的大模型学习PDF书单来了!全是硬核知识,帮你少走弯路(不吹牛,真有用)

05 行业报告+白皮书合集
收集70+报告与白皮书,了解行业最新动态!

06 90+份面试题/经验
AI大模型岗位面试经验总结(谁学技术不是为了赚$呢,找个好的岗位很重要)

07 deepseek部署包+技巧大全

由于篇幅有限
只展示部分资料
并且还在持续更新中…
真诚无偿分享!!!
vx扫描下方二维码即可
加上后会一个个给大家发

8717

被折叠的 条评论
为什么被折叠?



