一文了解10个AI大模型常见的名词术语(模型参数、上下文长度、量化、蒸馏、Token、MOE、RAG、RL、智能体、具身智能)

随着DeepSeek+应用在各行各业的逐步落地,AI大模型有关的名词术语被越来越多的人讨论,比如常见的模型参数、上下文长度、量化、蒸馏、Token、MOE、RAG、RL、智能体、具身智能等到底是什么意思?本文我们简单聊聊上面提到的10个名词或术语!

一、怎么理解大模型的“参数量”

图片

“模型参数”的数量是指大模型神经网络的"大脑容量",通常以十亿(B)为单位,简单来讲就是参数越多,模型的能力越强(智商越高、复杂问题的处理准确率越高),但是参数量越大(1B = 10亿参数,如R1满血版为671B,为6710亿参数),需要的显存容量越大,往往需要在模型选择时根据实际硬件配置选择合适的模型规模,下图是不同模型参数量(对应常见精度)的显存需求推荐。

图片

二、怎么理解大模型的“上下文长度

“上下文长度”指的是模型在处理信息时,单次能考虑的前后内容范围。它在不同领域尤其是自然语言处理(NLP)中至关重要,影响模型的理解和生成能力。如R1的输入上下文长度为 ‌128K Tokens‌‌,这一特性继承自其基础模型V3-Base‌2,举个例子128K tokens‌的输入上下文,相当于一次性可解析约6.5万汉字的长文本‌。

  • 2K (2048): 标准长度,适合一般对话
  • 4K (4096): 中等长度,可处理较长文档
  • 8K (8192): 较长上下文,适合长文分析
  • 32K+: 超长上下文,可处理书籍级内容

图片

和“上下文长度”有关的还有思维链长度和最大输出长度:

思维链长度:DeepSeek在输出最终回答之前,模型会先输出一段思维链内容,以提升最终答案的准确性。DeepSeek的API 向用户开放 deepseek-reasoner 思维链的内容,以供用户查看、展示、蒸馏使用。

最大输出长度:如上图DS的官网报价,DeepSeek官支持最大输出长度为8K,真正实现8k的输出,通常需通过多次交互才能完成长内容生成‌。

三、怎么理解大模型的“量化”

图片

大模型量化技术是一种通过‌降低模型参数的数值精度‌,将高精度浮点运算(如FP32)转换为低精度整数或定点数(如INT8、INT4)的模型压缩方法‌。其本质是通过牺牲微小精度损失,换取模型‌存储空间‌、‌计算速度‌和‌能耗效率‌的显著提升‌,其优势总结如下:

1、优化‌显存与存储的占用:通过将浮点参数(如FP32)压缩至低比特整数(如INT8/INT4),模型体积可减少4-8倍,显著降低内存占用‌35。例如,INT8量化后的模型体积仅为原FP32模型的25%‌。尤其在移动设备或嵌入式系统中,量化后的模型更易部署,支持在有限内存下运行超大规模模型(如70B参数模型)‌。

2‌、推加速理与降低‌能耗:低精度计算(如INT8)在支持专用指令集的硬件(如NPU、Tensor Core)上可提速2-4倍,尤其适合实时性要求高的场景(如自动驾驶感知)‌。能耗随计算精度降低呈指数级下降,INT4推理能耗仅为FP32的1/10,适用于IoT设备等低功耗场景‌。

‌3、提升‌通信与计算效率:分布式训练中,通过量化梯度减少通信带宽需求,加速多机训练过程‌,FP8混合精度训练(如NVIDIA H100)结合浮点动态范围和低存储开销,提升大规模模型训练效率‌。

量化技术的劣势也比较明显,会带来‌精度损失与鲁棒性挑战,可能导致关键特征丢失,模型精度下降5-15%‌。注意实现如下:

  • 量化程度越高,显存占用越少,但可能带来一定的精度损失
  • FP8 需要 H系列或者40系列 GPU 硬件支持、FP4需要B系列或者50系列支持
  • 建议根据实际需求在性能和精度间权衡

四、怎么理解大模型的“蒸馏”

中文词语“蒸馏”是提纯的意思,以酿酒工艺为例,蒸馏利用酒精和水沸点的不同,通过加热使酒精汽化,然后冷凝收集高浓度的酒精溶液。酒精的沸点为78.5℃,而水的沸点为100℃,因此通过加热发酵液,酒精会先于水蒸发出来,经过冷凝后得到高度数的酒精溶液‌**,是用蒸馏提纯,特点是在源溶液的基础上做减法。**

图片

大模型“蒸馏”技术如果非专业人看很容易误解为“偷窃、偷取之意,如A模型被“蒸馏”后数据就减少了”,实际并非如此。准确来讲大模型“蒸馏”技术应该翻译为“教学或传授”(类似老师教学生),比如数学老师利用自身丰富的知识储备,把各类常考题目整理成册并配上解题思路后讲授给学生,学生不只是简单的背题库还学习了老师的解题思路,掌握了问题分析和思考的能力(能够举一反三),大模型“蒸馏”技术是把大语言模型中的能力和知识迁移到更小的模型的技术目的是在于构造出来资源高效和性能优异的小模型,未经过蒸馏的模型好比是老师,经过蒸馏的小模型可以比作学生。

图片

DeepSeek允许把目前最强的大模型R1的能力蒸馏给任意小模型,并且官方给出了操作方式,在已公布的蒸馏版小模型中大家经常看到R1-Distill-Qwen-7B,好比把满血版的671B DeepSeek R1当做老师,老师出了一个教学册子,让阿里的模型Qwen作为学生来学习,利用了R1合成的高质量数据微调了Qwen7B的模型,虽然模型体量较小但是得到了R1的“教学”,其推理的能力有明显提升,老美在AI大模型领域也会经常用到蒸馏的技术,属于常规操作。

“蒸馏”模型优点是体积小、速度快和成本低、便于大规模的部署,缺点是:有时会模仿教师模型的回答习惯和视角,有时候创造性不足,老师大模型就是非蒸馏的大模型,优点是拥有更大规模的参数量,更完整的知识图谱,可以展现出来更高的能力,回答更有深度和创造性,缺点是运行成本高,资源占用大,对硬件GPU的依赖较高,最后总结,蒸馏技术让小模型的能力得到提升,且更易于本地部署,帮助开发者实现应用落地。

五、怎么理解Token?

大家知道大模型有关的报价都以“百万Tokens”为单位。Token(令牌)是模型用来表示自然语言文本的的最小单位,可以是一个词、一个数字或一个标点符号等。各模型服务商根据模型输入和输出的总Token数进行计量计费。

Token是模型领域,专门用来表示自然语言文本的基本单位,也是通用的计费单元,可以直观的理解为“字”或“词”;每个Token通常是1个中文词语、1 个英文单词、1个数字或 1个符号。DeepSeek官方也给出Token数和字数的大致换算比例如下:

  • 1 个英文字符 ≈ 0.3 个 token。
  • 1 个中文字符 ≈ 0.6 个 token。

实际使用时,也会因为不同模型的分词不同,换算比例也存在差异,每一次实际处理 token 数量以模型返回为准。

图片

关于Token扣费:跟我们使用运营商的流量包类似,扣减的费用=Token 消耗量×模型单价,如DeepSeek官方的扣费是规则是直接从充值余额或赠送余额中进行扣减。

六、怎么理解“MOE”?

DeepSeek采用MoE(Mixture of Experts,混合专家)架构,训练多个专家模块,每个专家针对特定的数据分布或任务进行优化。通过门控机制动态选择最合适的专家模块进行处理,从而提高模型的推理能力和效率。MoE模型的核心思想是将输入数据分配给不同的专家子模型,然后将所有子模型的输出进行合并,以生成最终结果。这种分配可以根据输入数据的特征进行动态调整,确保每个专家处理其最擅长的数据类型或任务方面,从而实现更高效、准确的预测。

图片

以DeepSeek-V3/R1为例,作为国内产自研的MoE模型,671B 参数,激活 37B,MOE核心特点总结如下:

  • 稀疏激活(Sparse Activation):在推理或训练过程中,每个 token 只会激活一小部分专家,而不是整个模型,降低计算负担。
  • 动态专家分配(Dynamic Routing):采用门控网络(Gate Network)决定哪些专家参与计算,提升适应性。
  • 高效计算(Efficient Computation):相比于 dense 模型,MOE 仅计算部分专家,减少计算资源占用。
  • 可扩展性(Scalability):可以灵活扩展专家数量,适配不同规模的计算资源。

MoE模型的缺点:

  • 训练不稳定:由于MoE模型依赖于动态选择机制,在专家选择不当时,可能导致任务训练的不稳定。
  • 实现复杂:与Dense模型相比,MoE的实现更加复杂,需要更多的设计和优化工作,以保证模型能够高效且稳定地运行。
  • 专家利用率不均衡:在某些任务中,可能会有一些专家被忽视,导致专家的利用率不够高,从而影响整体的计算效率。
  • MoE模型里那些未激活专家,虽然不消耗算力,但它们的参数量仍然要占用显存/内存,带来巨大的存储开销和调度复杂性。

因为Dense模型没有像MoE那样智能选择合适的计算单元,所以每次训练时,都需要对所有参数进行计算和更新,这带来了巨大的计算量和存储需求。因此,Dense模型的计算成本较高,尤其是在处理大规模数据集或复杂任务时,效率会大大降低。

七、怎么理解“RAG”?

RAG‌全称是Retrieval-Augmented Generation,中文翻译是检索增强生成,是一种结合信息检索技术与生成式大语言模型(LLM)的架构,通过实时引入外部知识库提升模型在知识密集型任务中表现的技术。

请添加图片描述

核心是检索+生成结合‌将传统信息检索系统(如数据库、知识库)与LLM结合,利用检索到的外部信息辅助生成更准确、时效性更强的文本‌,常见的有通过外挂知识库‌:通过动态接入外部数据源(如企业文档、资料)用于弥补大模型训练数据滞后、领域知识不足等缺陷‌。

典型场景有RAG与Agent结合‌,通过智能体(Agent)实现动态决策,例如自动调用工具链完成复杂任务‌,实现多模态的扩展‌,可以从文本检索向图像、视频等多模态数据延伸,提升应用范围‌。

RAG通过“动态知识注入”机制,成为平衡大模型通用性与领域专业性的主流方案,尤其在需要实时性和高准确率的场景中表现突出。

八、怎么理解“RL”?

DeepSeek R1使用了强化学习框架(如GRPO)来提升模型在推理任务中的性能。通过强化学习,模型能够在没有监督数据的情况下自我演化,提升推理能力。例如R1通过数千步强化学习,在AIME 2024基准测试中的表现大幅提升,R1的训练过程如下(多环节用到了强化学习):

请添加图片描述

要理解强化学习(RL)的核心逻辑,可从其技术机制、与传统方法的差异及实际应用三方面展开;

1、DeepSeek RL的核心机制是试错学习与动态优化,首先是通过搭建‌奖励系统‌,让模型在试错中自主优化策略。例如,模型在解答数学题时,答案正确则获得正向奖励,错误则调整策略‌,其次是环境交互框架基于强化学习的经典框架,包含‌智能体(Agent)‌、‌环境(Environment)‌、‌动作(Action)‌和‌奖励(Reward)‌四个要素。通过生成不同答案(动作)与环境(题目与答案反馈)交互,最终习得最优解题规则‌,三是自迭代推理能力‌,通过‌自问自答式思考‌模拟人类推理。如处理复杂逻辑题时,模型会尝试多种推理路径,根据反馈调整中间步骤,最终形成通用推理能力‌。

2、与传统的训练方式相比特点如下:

对比维度DeepSeek RL传统方法(行为克隆)
‌学习方式‌主动试错,根据结果反馈优化策略依赖标注数据,模仿人类答案(类似背答案)
‌中间过程‌自主调整思考步骤(如先列公式再计算)仅关注输出结果匹配度
‌泛化能力‌通过多任务训练提炼通用规则依赖训练数据覆盖场景
‌典型应用‌数学推理、编程调试、复杂逻辑问题标准化问答、文本生成

3、技术优势是模型无需海量标注数据,通过环境交互即可持续优化策略‌,从单一任务训练中提炼通用规则,适用于跨领域复杂问题‌,模拟人类“先思考后回答”的认知过程,提升答案的可解释性‌。RL通过‌奖励驱动的动态策略优化‌和‌拟人化推理机制‌,突破了传统模型依赖标注数据的局限,可以在复杂任务中展现出更强的自主性与泛化能力‌。

九、怎么理解“智能体”?

请添加图片描述

按照OpenAI对AI能力等级的划分,可分为五个阶段,具体如下:

Level 1:聊天机器人(Conversational AI)。这是目前人工智能所处的阶段,AI能够以自然语言与人类进行对话交流。例如常见的聊天机器人、虚拟助手等,像ChatGPT、Claude等都属于这一级别。它们可以处理客户服务交互,提供基本的协助,但仅限于基于语言的任务,缺乏复杂的解决问题能力。

Level 2:推理者(Reasoners)。在这一阶段,AI系统能够像拥有博士学位的人类一样解决复杂问题,但无法使用外部工具。这些“推理者”有望在学术和专业领域独立解决复杂问题,这标志着AI认知能力的显著提升。

Level 3:智能体(Agents)。这一阶段的AI系统被称为“智能体”,能够代表用户自主执行任务,持续数天甚至更长时间。这些系统可以在不同领域独立完成多种任务,无需人类持续干预,有望彻底改变商业运营和效率。

Level 4:创新者(Innovators)。这一阶段的AI能够协助发明创造,为科学发现和技术进步提供支持。它不仅能执行任务,还能创造和创新,提出创新的解决方案和想法。

Level 5:组织者(Organizations)。这是AI发展的最终阶段,AI系统能够完成整个组织的工作,管理并执行业务的所有功能,其效率和生产力将超越传统的人类运营模式。

智能体是AI系统实现自主决策的核心载体,其能力边界通过‌环境交互‌、‌多模态融合‌与‌策略优化‌不断拓展,正在重塑自动驾驶、工业自动化等领域的智能化水平‌,2025年普遍被认为是智能体发展的元年。1月份OpenAI宣布上线名为Operator的首款AI智能体,能为用户提供餐饮、活动、配送、购物、旅行相关服务和建议。

很多朋友分不清智能体、AIGC和AGI的关系,AGI是一个很长期且宏观的目标,是一个“超级大脑”,啥都能干,但目前还只是个理想。AIGC 是 AGI 的一部分,它主要关注的是内容创作这个领域,就像是 AGI 的“文艺细胞”。而智能体(Agent)则是 AGI 的另一个方面,它更注重行动,就像是 AGI 的“手脚”。简单来说,AGI 是一个大目标,AIGC 和智能体(Agent)都是朝着这个目标前进的不同方向。‌技术成熟度排序‌:AIGC(已大规模商用)>智能体(部分落地)>AGI(理论探索)‌;

下图及本段文字是源自“智驻未来”公众号文章“通俗易懂!智能体(Agent)、AIGC、AGI:大模型时代的“三剑客”,AGI 就像是一个全能的餐厅老板,能管理餐厅的方方面面,从菜单设计到员工管理,从顾客服务到财务核算,啥都能搞定。AIGC 就像是餐厅的“创意厨师”,能根据顾客的口味和要求,创造出各种美味的菜品,还能设计出好看的菜单。智能体(Agent)就像是餐厅的服务员,能感知顾客的需求,比如看到顾客举手就知道要过去服务,然后根据顾客的要求做出决策,比如给顾客推荐合适的菜品,最后执行任务,把菜端给顾客。

请添加图片描述

十、怎么理解“具身智能”?

请添加图片描述

“具身智能”英文是Embodied Artificial Intelligence,简称“EAI”,从名字看“具身”是具身智能的必要前提,但“具身”一词并不只是“具有身体”,而是指身体会参与认知,并影响逻辑判断的过程。其概念最早可追溯至1950年,图灵在一篇论文《计算机器与智能》中提出了机器像人一样能和环境交互感知、自主规划、决策和行动,这是AI的终极形态‌。具身智能强调智能体通过身体与环境的动态交互实现自主学习和进化,而不是仅仅依赖大量的数据和算法‌。特点总结如下:

  • 智能并非孤立于大脑,而是身体、环境与感知运动系统协同作用的产物;
  • 认知过程具有身体性,例如人类对抽象概念(如“理解是抓住”)的隐喻本质源于身体经验;
  • 世界模型通过交互构建:智能体通过物理交互(如婴儿触摸物体)逐步形成对世界的理解,而非预先编码的符号规则。

与“具身”相对的概念是“离身”,即认知与身体分离。我们熟悉的ChatGPT就是一个典型的“离身智能”产品,它没有可以感知世界并与之交互的身体,虽然通过采集的海量数据来标记世间万物,却无法理解这些文本、图片在物理交互中真实的意义。

“具身智能”的具体实现需融合多学科技术,主要三层技术架构如下:

请添加图片描述

举例分析:如传统AI的语音助手(如Siri)仅处理语言信号,而具身智能机器人(如优必选Walker S1)可以同步完成视觉识别、路径规划、机械臂抓取等跨模态任务。

请添加图片描述

具身智能更像是一个认知革命,不仅是技术升级,更是一场对智能本质的重新定义。揭示了人类认知的物理根源,并为机器突破“工具性智能”、迈向“适应性智能”提供了新路径。神经科学家安东尼奥·达马西奥曾说过:“我们思考的不仅是大脑,而是整个身体在思考。”这一领域的发展或将重塑人工智能的未来图景,给我们更大的想象和创造空间。

如何学习大模型 AI ?

由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。

但是具体到个人,只能说是:

“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。

这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

这份完整版的大模型 AI 学习资料已经上传优快云,朋友们如果需要可以微信扫描下方优快云官方认证二维码免费领取【保证100%免费

https://img-blog.csdnimg.cn/img_convert/05840567e2912bcdcdda7b15cba33d93.jpeg

在这里插入图片描述

第一阶段(10天):初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。

  • 大模型 AI 能干什么?
  • 大模型是怎样获得「智能」的?
  • 用好 AI 的核心心法
  • 大模型应用业务架构
  • 大模型应用技术架构
  • 代码示例:向 GPT-3.5 灌入新知识
  • 提示工程的意义和核心思想
  • Prompt 典型构成
  • 指令调优方法论
  • 思维链和思维树
  • Prompt 攻击和防范

第二阶段(30天):高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。

  • 为什么要做 RAG
  • 搭建一个简单的 ChatPDF
  • 检索的基础概念
  • 什么是向量表示(Embeddings)
  • 向量数据库与向量检索
  • 基于向量检索的 RAG
  • 搭建 RAG 系统的扩展知识
  • 混合检索与 RAG-Fusion 简介
  • 向量模型本地部署

第三阶段(30天):模型训练

恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。

到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?

  • 为什么要做 RAG
  • 什么是模型
  • 什么是模型训练
  • 求解器 & 损失函数简介
  • 小实验2:手写一个简单的神经网络并训练它
  • 什么是训练/预训练/微调/轻量化微调
  • Transformer结构简介
  • 轻量化微调
  • 实验数据集的构建

第四阶段(20天):商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。

  • 硬件选型
  • 带你了解全球大模型
  • 使用国产大模型服务
  • 搭建 OpenAI 代理
  • 热身:基于阿里云 PAI 部署 Stable Diffusion
  • 在本地计算机运行大模型
  • 大模型的私有化部署
  • 基于 vLLM 部署大模型
  • 案例:如何优雅地在阿里云私有部署开源大模型
  • 部署一套开源 LLM 项目
  • 内容安全
  • 互联网信息服务算法备案

学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。

如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。

这份完整版的大模型 AI 学习资料已经上传优快云,朋友们如果需要可以微信扫描下方优快云官方认证二维码免费领取【保证100%免费

https://img-blog.csdnimg.cn/img_convert/05840567e2912bcdcdda7b15cba33d93.jpeg

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值