AI黑话词典：大模型必备术语全解析，建议收藏！

原创于 2025-11-25 11:12:57 发布 · 827 阅读

15 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能 #ai #大模型 #程序员 #转行 #产品经理 #学习

最近一直在学习AI相关的课程，课程前前后后说了很多专业名词，有时候光听到名词，觉得特别高大上，但是听了老师的讲解后也会立马明白。想到可能有些也人跟以前的自己一样，被这些“行业黑话”给吓退。

于是，尝试着整理一下，分享给更多的人，避免大家被黑话挡在学习的门外。以下只是一部分，后续在学习过程中会持续更新。

1、序列化（Serialization）

是指将数据结构或对象状态转换为可以存储（例如保存到文件、内存缓冲区）或传输（例如通过网络发送）的格式的过程。

2、反序列化（Deserialization）

将序列化的数据还原为原始的数据结构或对象。

3、解析（Parsing）

将一段输入（通常是字符串或字节流）按照某种规则分解并理解其结构和含义的过程，简单来说解析就是：理解结构+提取信息。比如输入2025-11-19，解析为年=2025，月=11，日=19

4、解析器（Parser）

用于分析输入的文本或数据流，并根据特定的语法规则将其转换为结构化的表示形式。

5、块(chunk)

将数据、任务或资源划分为较小的、可管理的部分。这种“分块”策略广泛应用于内存管理、文件处理、网络传输、大模型推理等多个领域。

6、词元(Token)

Token 是文本经过分词器（Tokenizer）处理后得到的最小语义或子词单元，它不等于单词，也不等于字符，而是一种介于两者之间的表示方式，是模型理解、处理、生成文本的基本单位。

7、向量（Vector）

是表示数据（如词、句子、图像等）的核心数学工具。它的本质是一个有序的数值数组，能够将抽象对象转化为机器可计算的形式。在AI中的意义：向量是对现实世界对象（如“猫”、“快乐”、“一篇新闻”）的数值化编码，使得计算机能通过计算（如距离、相似度）来“理解”语义。

8、嵌入（Embedding）

是一种将复杂、高维的数据（如词语、图片、声音）转换为低维、连续的数值向量（即一系列数字）的技术。简单理解：就是一个数据翻译过程，将数据转化成计算机可以理解的数字。核心思想：计算向量与向量之间相似度，用于实际业务场景，比如搜索、推荐、图像识别、大语言模型等。举例：将您的查询和所有网页都转换为向量。然后，搜索引擎会找到与您的查询向量最相似的网页向量。

9、检索增强生成（RAG）

Retrieval-Augmented Generation，检索增强生成，是一种结合信息检索与大语言模型（LLM）生成能力的架构，用于解决大模型的以下核心问题：知识过时（训练数据截止于某时间点）、幻觉（Hallucination）（编造事实）、无法访问私有/专有数据（如公司文档、内部知识库）。通常大家会把它理解成一个外挂知识库。常见应用场景：企业知识库问答、法律/医疗咨询等。

10、提示词（Prompt）

是指用户输入给大语言模型（如ChatGPT）的指令、问题或一段文字，旨在引导模型生成符合期望的回复。再细分一点会分为系统提示词和用户提示词，这两种提示词是在与大型语言模型（特别是基于对话的模型如 ChatGPT）交互时的两个关键概念，它们共同决定了模型的最终输出。

系统提示词用于定义模型的角色、行为方式、回复风格和边界限制。

用户提示词用户在对话过程中直接输入给模型的每一条消息或问题用于表达用户当前意图，触发模型响应。

11、温度（Temperature）

用于控制LLM生成文本的多样性。在模型计算出下一个Token所有可能的概率分布后，

Temperature会调整这个分布的“平滑度”。

高Temperature:会让低概率的Token更容易被选中，使生成结果更具创造性，可能出现不连贯的词语。

低Temperature:会让高概率的Token权重更大，使生成结果更稳定、更符合训练数据，但会更保守。

12、TOP P

TOP P（核采样）设定一个概率阈值（P），然后从高到低累加所有Token的概率，直到总和超过P为止。模型只会在这个累加出来的“核心”词汇表中选择下一个Token。

高Top P候选词汇表较大，结果更多样。

低Top P:候选词汇表非常小，结果更具确定性。

举例说明：假设模型要完成句子：“今天天气真…”，模型预测的下一个词可能是：好(60%)、不错(30%)、糟(9%)、可乐(0.01%)。

高Temperature：会提升所有词的概率，使得“可乐”这个不相关的词也有机会被选中。

Top P (设为0.9)：会选择概率总和达到90%的词。这里好(60%) +不错(30%) = 90%，所以模型只会从“好”和“不错”中选择，直接排除了“可乐”这种离谱的选项。

13、LLM

大型语言模型，是基于海量文本数据训练的深度学习模型，属于生成式AI的一种。它能理解和生成类人类的自然语言，常见模型如GPT系列、DeepSeek, Qwen等。

14、预训练（Pre-training）

预训练（Pre-training）和微调（Fine-tuning）是两个核心阶段，共同构成“先通用、后专用”的模型训练范式。预训练是指模型在大量数据上进行训练，学习通用的语言表示和世界知识。

15、微调（Fine-tuning）

微调是指在预训练模型的基础上，使用特定任务的数据集对模型进行进一步的训练，使其适应特定任务。

普通人如何抓住AI大模型的风口？

领取方式在文末

为什么要学习大模型？

目前AI大模型的技术岗位与能力培养随着人工智能技术的迅速发展和应用，大模型作为其中的重要组成部分，正逐渐成为推动人工智能发展的重要引擎。大模型以其强大的数据处理和模式识别能力，广泛应用于自然语言处理、计算机视觉、智能推荐等领域，为各行各业带来了革命性的改变和机遇。

目前，开源人工智能大模型已应用于医疗、政务、法律、汽车、娱乐、金融、互联网、教育、制造业、企业服务等多个场景，其中，应用于金融、企业服务、制造业和法律领域的大模型在本次调研中占比超过 30%。
在这里插入图片描述

随着AI大模型技术的迅速发展，相关岗位的需求也日益增加。大模型产业链催生了一批高薪新职业：
在这里插入图片描述

人工智能大潮已来，不加入就可能被淘汰。如果你是技术人，尤其是互联网从业者，现在就开始学习AI大模型技术，真的是给你的人生一个重要建议！

最后

只要你真心想学习AI大模型技术，这份精心整理的学习资料我愿意无偿分享给你，但是想学技术去乱搞的人别来找我！

在当前这个人工智能高速发展的时代，AI大模型正在深刻改变各行各业。我国对高水平AI人才的需求也日益增长，真正懂技术、能落地的人才依旧紧缺。我也希望通过这份资料，能够帮助更多有志于AI领域的朋友入门并深入学习。

真诚无偿分享！！！
vx扫描下方二维码即可
加上后会一个个给大家发
在这里插入图片描述

大模型全套学习资料展示

自我们与MoPaaS魔泊云合作以来，我们不断打磨课程体系与技术内容，在细节上精益求精，同时在技术层面也新增了许多前沿且实用的内容，力求为大家带来更系统、更实战、更落地的大模型学习体验。

希望这份系统、实用的大模型学习路径，能够帮助你从零入门，进阶到实战，真正掌握AI时代的核心技能！

01 教学内容

从零到精通完整闭环：【基础理论 →RAG开发 → Agent设计 → 模型微调与私有化部署调→热门技术】5大模块，内容比传统教材更贴近企业实战！
大量真实项目案例： 带你亲自上手搞数据清洗、模型调优这些硬核操作，把课本知识变成真本事‌！

02适学人群

应届毕业生‌： 无工作经验但想要系统学习AI大模型技术，期待通过实战项目掌握核心技术。

零基础转型‌： 非技术背景但关注AI应用场景，计划通过低代码工具实现“AI+行业”跨界‌。

业务赋能突破瓶颈： 传统开发者（Java/前端等）学习Transformer架构与LangChain框架，向AI全栈工程师转型‌。

vx扫描下方二维码即可
在这里插入图片描述

本教程比较珍贵，仅限大家自行学习，不要传播！更严禁商用！

03 入门到进阶学习路线图

大模型学习路线图，整体分为5个大的阶段：

04 视频和书籍PDF合集

从0到掌握主流大模型技术视频教程（涵盖模型训练、微调、RAG、LangChain、Agent开发等实战方向）

新手必备的大模型学习PDF书单来了！全是硬核知识，帮你少走弯路（不吹牛，真有用）

05 行业报告+白皮书合集

收集70+报告与白皮书，了解行业最新动态！

06 90+份面试题/经验

AI大模型岗位面试经验总结（谁学技术不是为了赚$呢，找个好的岗位很重要）
在这里插入图片描述

07 deepseek部署包+技巧大全

在这里插入图片描述

由于篇幅有限

只展示部分资料

并且还在持续更新中…

真诚无偿分享！！！
vx扫描下方二维码即可
加上后会一个个给大家发
在这里插入图片描述