这篇文章会用最通俗的语言,帮你理解这些看似复杂的概念,可以让你更好地使用大模型。
1. Token(词元)
当你在浏览各大模型的官网或准备调用其 API 时,都会看到“价格”这一部分。大多数厂商的 API 定价是按 token 数量计费的,常见的计量单位是 1M tokens(即100万个 tokens)。在 OpenAI 的 API 中,费用会区分不同类型的 token,比如 文本 token(Text tokens)、图像生成与处理 token(Image tokens)、音频处理 token(Audio tokens) 等,调用时会根据实际消耗的 token 数量来收费。需要注意的是,API 调用的计费方式和 ChatGPT 产品的订阅模式并不相同:前者是按使用量精确计费,后者则是按月订阅或套餐形式收费。

什么是 Token?
Token 可以理解为 语言的最小计量单位,是大语言模型理解和处理文本的基本单位(可以直观地认为是“一个词”)。Tokenizer(分词器)作用是当你输入自然语言文本时,模型第一步不是直接处理原始字符,而是先把文本拆成 token:
- 对中文来说,通常一个汉字或一个词可以算作一个 token,但也可能按分词规则拆成更小的单位。
- 对英文来说,一个 token 不一定等于一个完整单词,有时是单词的一部分,甚至可能只是一个字符。
- 对于大语言模型而言,分词(tokenization)是文本处理的第一步,它决定了后续 embedding 和模型理解的基本单元。
| 文本 | 分解 token(注意 Token ID,这与后续 embedding 密切相关) |
|---|---|
| 我喜欢吃苹果 | [“我”, “喜欢”, “吃”, “苹果”] → 4 tokens [10534, 23512, 876, 4312] |
| ChatGPT | [“Chat”, “G”, “PT”] → 3 tokens [1234, 567, 890] |
| 人工智能 | [“人工”, “智能”] → 2 tokens [4321, 8765] |
注意,表格中的“ChatGPT”通常会被拆成 [“Chat”, “G”, “PT”] 这样的更小单元,这是因为 embedding 表中没有完整的 “ChatGPT” 词条,所以必须拆分成子词。英文单词比中文更容易出现这种拆分情况。
Token ID解释(后续embedding详细解释)
-
Token ID 是 tokenizer 输出的整数标识符,每个 token 都有一个唯一的 ID(上述表格中的ID是随便写的)。
-
这些 ID 是固定的,并不是随机生成的,而是由模型的 词表(vocabulary) 事先定义好的。
-
在大语言模型中,Token ID 会直接对应到 embedding 表中的行,也就是说每个 Token ID 会对应一个向量(embedding vector)。
-
因此,Token ID 和 embedding ID 是一一对应的,但严格来说,是通过词表和 embedding 表建立对应关系,而不是随意设计的。
2. Embedding(嵌入)
什么是Embedding?
Embedding就是根据token ID把每个token向量化。Embedding是一个词汇表,一个矩阵[NxM],N是单词个数,M是每个单词的向量表示,比如OpenAI 提供的 text-embedding:
-
text-embedding-3-small→ 1536 维 -
text-embedding-3-large→ 3072 维
Embedding中每个单词的向量是通过训练使其词与词之间有一定的关系,比如同一类词语其向量相似度较高,不同类的词语相似度较低。维度M越大,每个 token 的向量表示就越“丰富”,能表达更多的语义特征,能更好地区分语义相近的 token,也能更细致地捕捉上下文信息。
t-SNE可视化词语嵌入(word embeddings)的语义关系,Embedding词语嵌入将语义相似的词语聚集在一起,形成清晰的语义簇。

Token 和 Embedding关系
下图图展示了自然语言文本如何转换成计算机模型能够处理的数值数据的过程。整个过程是这样的:
- 首先有一个句子比如"今天天气如何",然后通过分词器(Tokenizer)将句子分解成更小的单位叫做tokens,比如"今天"、“天气”、"如何"等,每个token都会被分配一个唯一的数值ID,比如"今天"的Token ID是10348。
- 这些Token ID会被用来在嵌入表(Embedding Table)中查找对应的数值表示,也就是embeddings。这里很重要的是,每个词生成的Token ID直接对应着嵌入表中用来定位特定嵌入向量的ID,所以"今天"(Token ID 10348)会得到它独特的嵌入向量v1,"天气"会得到v2,"如何"会得到v3。
- 这些得到的嵌入向量会被传递给机器学习模型进行计算,让模型能够理解和处理文本内容。

训练模型之前,先定义好 tokenizer 的词汇表,每个 token 分配一个唯一 ID(token ID),embedding 表初始化时,按照这个词汇表顺序生成对应向量(随机初始化或预训练向量),所以Token ID和Embedding ID是对应的。
按Tokens收费的原理
你会注意到,模型的参数实际上就是模型架构的一部分。当模型架构确定后,参数的规模也随之固定。在训练过程中,这些参数不断被更新,逐渐学习并存储了语言规律和知识。回顾上一篇,模型可类比:y=Ax+B
其中 A 和 B 就是参数。只不过在大模型中,这些参数的数量往往是数百亿、甚至上万亿级别。
在推理阶段,有些模型采用了 激活参数(Activated Parameters) 的机制,也就是说并不是所有参数都会在一次计算中被调用,而是只有一部分参数在处理输入 token 时被激活并参与计算。
这与传统的 稠密(Dense)模型 不同:
- Dense 模型:推理时几乎所有参数都会参与计算,消耗资源更大。
- 稀疏激活(MoE, Mixture of Experts)模型:推理时只激活少部分参数,显著降低推理成本。
这正是 DeepSeek 等模型能够降低使用成本的原因。
因此,计算成本主要取决于:输入 token 数量 + 被激活的参数规模。这也是为什么很多大模型的计费方式是基于 token 数量,因为 token 数既能反映输入规模,也能间接体现实际的算力消耗。
公开模型参数示例
| 模型名称 | 总参数量(Total Params) | 激活参数量(Activated Params) | 架构类型 | 最大上下文长度 |
|---|---|---|---|---|
| GPT-3 | 175B | 175B(Dense,全激活) | Dense | 2K |
| LLaMA-2-70B | 70B | 70B(Dense,全激活) | Dense | 4K |
| Qwen-72B | 72B | 72B(Dense,全激活) | Dense | 32K |
| DeepSeek-R1 | 671B | 37B(MoE,仅部分激活) | MoE | 128K |
上述表格中可以看到,对于同一输入,某些模型会对 所有参数 都进行计算(即 Dense 模型),而另一些模型则采用 专家模型(Mixture-of-Experts, MoE) 的机制,只激活与输入最相关的参数进行计算。专家模型通过分析输入内容,判断哪些子模型(专家)最适合处理当前输入,从而仅计算这些被激活的参数,提高计算效率,同时保持模型的表达能力。
说明:
- B表示Billion,表示十亿,175B代表1750亿个参数。
- Dense 模型(GPT-3, LLaMA, Qwen):推理时调用全部参数 → 每个 token 都要计算完整参数。
- MoE 模型(Mistral-MoE, DeepSeek):推理时只激活少部分专家参数 → 总参数规模大,但实际激活参数小 → 单 token 成本更低。
3 上下文长度(Context Length)
上下文长度(Context Length)指的是模型在一次推理或训练中,能够“看到”的连续 token 数量。简单来说,它决定了模型在生成下一个 token 时,能够参考多少之前的文本信息。上下文长度越长,模型可以捕捉的上下文信息就越多,有助于理解长段文本或保持多轮对话的连贯性。比如
- GPT-3 的上下文长度是 2K token,意味着它一次只能处理约 2000 个 token 的内容。
- GPT-4 可以支持更长的上下文,比如 8K 或 32K token,GPT-4 Turbo支持128K,GPT-4o支持200K,从而在长文档理解或长对话中表现更好。
当你向 ChatGPT 输入一句话,比如“帮我解释一下大模型。”时,这句话会被送入大模型进行处理。模型会根据输入生成第一个 token(比如“好”),然后将原始输入和已生成的 token 作为新的输入,再生成下一个 token(比如“的”)。这个过程会不断循环:每次模型都会把用户输入和之前生成的内容一并作为新的上下文,预测下一个 token,直到生成完整回答。

在这个循环中,模型能“记住”的最大输入长度由 上下文长度(Context Length) 决定。如果输入加上已生成内容超过了上下文长度,模型会采用类似滑动窗口的方式,把最前面超出的部分舍弃,只保留最近的一段上下文来继续生成。
通俗理解就是:模型每次生成一个词时,都参考“你说的内容 + 它自己已经生成的内容”,直到回答完成,而它一次能看到的文字是有限的,这个限制就是上下文长度。
4 提示词工程 Prompt
Prompt,中文通常称作“提示词”,是指在使用大模型时,为模型提供的输入内容或指令。它告诉模型你希望它完成的任务或回答的方式。
- 简单示例:用户输入
"帮我介绍一下大模型。",这句话就是一个 prompt。 - 模型接收到 prompt 后,会根据提示生成对应的回答。
Prompt 的作用
- 引导模型行为:通过不同的提示词,可以让模型生成不同风格或方向的内容。
- 控制输出质量:精心设计的 prompt 能帮助模型生成更准确、更符合预期的回答。
- 扩展功能:复杂的 prompt 可以包含任务说明、角色设定、格式要求,甚至涉及 function call(函数调用),实现更复杂的操作。
使用技巧:
- 基础大模型通常是通用型的:开源的大模型一般是训练在广泛数据上的基础模型,理解力和表达能力较强,但不一定专注于某一垂直领域。
- 通过 Prompt 引导模型专注垂直领域:如果希望模型在特定领域(如医学、法律、机器人技术)输出高质量内容,需要设计更有针对性的 prompt,引导模型关注相关知识或行为模式。
- 复杂 Prompt:当任务涉及函数调用、表格生成、多轮对话等功能时,prompt 可能非常复杂,这部分内容可以在后续章节中详细介绍。
5 向量库RAG
RAG 是一种将 大模型生成能力 与 外部知识检索 结合的技术框架。它通过在生成文本前或生成过程中,动态检索相关信息,让模型不仅依赖自身训练参数,还能引用外部数据,从而生成更准确、专业和上下文相关的回答。
工作流程:
- 用户输入 Prompt 用户给模型一个提示词,比如
"帮我写一篇关于机器人控制算法的科普文章"。 - 向量检索 模型或系统将 Prompt 转换为 embedding,然后在向量库中检索与之最相关的文档或片段。
- 增强生成 检索到的内容与原始 Prompt 一起输入大模型,让模型生成回答或文本,输出结果中包含更多专业知识或上下文信息。
简化理解:RAG 就像模型有了“随时可以翻阅百科或文档”的能力,而不是只靠自己记忆的知识作答。
RAG 是大模型在实际应用中非常重要的一种增强技术,它将 Prompt 引导、向量检索和模型生成 有机结合,使模型生成的内容更加丰富、专业和可靠。特别在垂直领域内的应用。

6 模型微调(Fine-tuning)
为什么需要微调
在大模型应用中,通常我们会先尝试通过 Prompt 工程 和 RAG(检索增强生成) 来引导模型完成任务。
- Prompt:通过设计合理的提示词,尽可能让模型理解和执行需求。
- RAG:在模型回答时结合外部知识库,增强模型的知识范围和专业性。
但是在一些场景下,即便使用了 Prompt 和 RAG,模型的性能仍然达不到预期:
- 模型对某些领域的专业知识理解不够深入;
- 模型的表达风格与业务需求有差距;
- 任务需要模型掌握新的知识,而这些知识在训练语料中很少或不存在。
这时,就需要在现有大模型的基础上,进行 微调(Fine-tuning)。
什么是微调
微调的核心思想是:
- 在大模型已经学习了大量通用知识的前提下,
- 通过采集并构建一个 新的训练数据集(通常是垂直领域的数据),
- 对模型的部分参数进行再训练,
- 让模型学习新的模式、知识或任务。
相比从头训练一个模型,微调的计算成本和数据需求要低得多,同时又能显著提升模型在特定场景下的效果。
7 模型路由
在大型模型应用中,往往会存在多个在基础大模型之上微调得到的 领域专用模型。为了让用户请求能够被分配到最合适的模型,需要一个 模型路由器 来负责调度。从工程角度看,模型路由器的主要职责包括:
- 解析输入
- 对用户请求进行语义解析、分类和关键词提取。
- 例如:
“火车站排队情况” → 属于客流/交通领域。
- 选择目标模型
- 根据用户意图和置信度,选择对应的专家模型。
- 若置信度较低,则回退到 通用大模型 + RAG 兜底,以避免答非所问。
- 控制流转
- 将请求转发到目标模型,并记录路由日志,便于后续追踪与优化。
- 结果融合
- 对于需要多个领域模型协同的问题(如“地铁施工对火车站客流的影响” → 涉及交通模型和施工模型),路由器负责调用多个模型并融合结果。
总结:模型路由器就像“大脑的分配中心”,决定每一个问题应该交给哪位“专家模型”处理,同时在不确定时交给通用模型兜底。和路由器的功能类似,不过 模型路由器是纯软件逻辑,它并不是硬件设备,而是部署在系统里的一个组件,用来解析用户请求 → 判断归属 → 分配给合适的专家模型 → 返回结果。

如果能够把城市里的各类数据都汇聚并打通,就能构建起一个“数字孪生”的物理世界。例如:当你准备停车时,只需要问一句:**“附近哪里有空余的停车位?周边交通情况如何?”**系统就能即时调用:
- 停车场数据 → 返回最近的可用车位及余量;
- 交通监测数据 → 告诉你周边道路的拥堵情况;
- 视频监控流/传感器数据 → 生成一张实时的场景图,帮助你直观了解环境;
- 大模型分析能力 → 对交通态势和出行建议进行解释说明。
这样,AI 不仅是回答“文字上的问题”,而是真正调动物理世界里的实时数据、传感器和图像,把虚拟智能和现实世界打通。
这正是 OpenAI 的 Sam Altman 所说的“让大模型链接物理世界”: 大模型不再只是“文本对话工具”,而是成为人和真实世界之间的智能接口。
普通人如何抓住AI大模型的风口?
领取方式在文末
为什么要学习大模型?
目前AI大模型的技术岗位与能力培养随着人工智能技术的迅速发展和应用 , 大模型作为其中的重要组成部分 , 正逐渐成为推动人工智能发展的重要引擎 。大模型以其强大的数据处理和模式识别能力, 广泛应用于自然语言处理 、计算机视觉 、 智能推荐等领域 ,为各行各业带来了革命性的改变和机遇 。
目前,开源人工智能大模型已应用于医疗、政务、法律、汽车、娱乐、金融、互联网、教育、制造业、企业服务等多个场景,其中,应用于金融、企业服务、制造业和法律领域的大模型在本次调研中占比超过 30%。

随着AI大模型技术的迅速发展,相关岗位的需求也日益增加。大模型产业链催生了一批高薪新职业:

人工智能大潮已来,不加入就可能被淘汰。如果你是技术人,尤其是互联网从业者,现在就开始学习AI大模型技术,真的是给你的人生一个重要建议!
最后
只要你真心想学习AI大模型技术,这份精心整理的学习资料我愿意无偿分享给你,但是想学技术去乱搞的人别来找我!
在当前这个人工智能高速发展的时代,AI大模型正在深刻改变各行各业。我国对高水平AI人才的需求也日益增长,真正懂技术、能落地的人才依旧紧缺。我也希望通过这份资料,能够帮助更多有志于AI领域的朋友入门并深入学习。
真诚无偿分享!!!
vx扫描下方二维码即可
加上后会一个个给大家发

大模型全套学习资料展示
自我们与MoPaaS魔泊云合作以来,我们不断打磨课程体系与技术内容,在细节上精益求精,同时在技术层面也新增了许多前沿且实用的内容,力求为大家带来更系统、更实战、更落地的大模型学习体验。

希望这份系统、实用的大模型学习路径,能够帮助你从零入门,进阶到实战,真正掌握AI时代的核心技能!
01 教学内容

-
从零到精通完整闭环:【基础理论 →RAG开发 → Agent设计 → 模型微调与私有化部署调→热门技术】5大模块,内容比传统教材更贴近企业实战!
-
大量真实项目案例: 带你亲自上手搞数据清洗、模型调优这些硬核操作,把课本知识变成真本事!
02适学人群
应届毕业生: 无工作经验但想要系统学习AI大模型技术,期待通过实战项目掌握核心技术。
零基础转型: 非技术背景但关注AI应用场景,计划通过低代码工具实现“AI+行业”跨界。
业务赋能突破瓶颈: 传统开发者(Java/前端等)学习Transformer架构与LangChain框架,向AI全栈工程师转型。

vx扫描下方二维码即可

本教程比较珍贵,仅限大家自行学习,不要传播!更严禁商用!
03 入门到进阶学习路线图
大模型学习路线图,整体分为5个大的阶段:

04 视频和书籍PDF合集

从0到掌握主流大模型技术视频教程(涵盖模型训练、微调、RAG、LangChain、Agent开发等实战方向)

新手必备的大模型学习PDF书单来了!全是硬核知识,帮你少走弯路(不吹牛,真有用)

05 行业报告+白皮书合集
收集70+报告与白皮书,了解行业最新动态!

06 90+份面试题/经验
AI大模型岗位面试经验总结(谁学技术不是为了赚$呢,找个好的岗位很重要)

07 deepseek部署包+技巧大全

由于篇幅有限
只展示部分资料
并且还在持续更新中…
真诚无偿分享!!!
vx扫描下方二维码即可
加上后会一个个给大家发

1680

被折叠的 条评论
为什么被折叠?



