AI产品经理一定要知道的这些大模型LLM概念！万字总结！

最新推荐文章于 2025-11-26 15:49:07 发布

原创最新推荐文章于 2025-11-26 15:49:07 发布 · 982 阅读

10 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能 #产品经理 #AI大模型 #LLM #大模型 #ai #AI产品经理

部署运行你感兴趣的模型镜像

一、大模型常见的概念理解

1、用产品经理的语言理解常见的AI术语

大模型(LLM)：现有所有的大模型，指的都是大语言模型，并且指的都是生成式的大模型，可以联想到的实际案例包括GPT4.0，GPT4o等；
深度学习： 深度学习是机器学习的一个子领域，专注于应用多层神经挽留过进行学习，深度学习擅长处理复杂的数据如图像、音频、文本，因此在AI中的应用非常有效；
监督学习：监督学习是机器学习的一种方法，通过训练数据集来学习从输入到输出的映射关系。训练数据集包含输入-输出对，模型使用这些已标记的数据进行训练，学习如何从输入预测输出。常见的监督学习算法包括线性回归、逻辑回归、支持向量机、K近邻、决策树和随机森林等。
无监督学习：无监督学习是机器学习的一种方法，在没有标签数据的情况下从数据中发现模式和结构，它主要用于数据聚类和降维等任务。常见的无监督学习算法包括K均值聚类、层次聚类、DBSCAN、主成分分析（PCA）和t-SNE等。
半监督学习： 半监督学习结合少量标记数据和大量未标记数据进行训练。它利用未标记数据的丰富信息和少量标记数据的准确性来提高模型性能。常见的方法包括生成对抗网络（GANs）和自编码器。
强化学习：强化学习是一种通过与环境交互，并基于奖励和惩罚机制来学习最优策略的方法。强化学习算法通过试错法来优化决策过程，以实现最大化累积奖励。常见算法包括Q学习、策略梯度和深度Q网络（DQN）等。
模型架构： 模型的架构代表了大模型的主干采用了什么样的设计方式，不同的模型架构会影响大模型的性能、效率、甚至是计算成本，也决定了模型的可拓展性；例如很多大模型的厂商会通过调整模型的架构的方式来缩减模型的计算量，从而减少对计算资源的消耗；
Transformer架构：Transformer是目前主流的大模型采用的模型架构，包括GPT4.0以及国内大部分的大模型，都是采用这个架构，Transformer架构之所以被广泛的使用，主要的原因是这个架构类型让大模型具备了理解人类自然语言、上下文记忆、生成文本的能力；常见的模型架构，除了Transformer架构，还有卷积神经网络（CNN）架构，适用于图像处理，以及生成对抗网络（GAN），适用于图像生成领域；详细关于Transformer架构的介绍可后面部分内容；
MOE架构： MOE架构表示混合专家网络架构，表示混合多种专家模型，形成一个参数量巨大的模型，从而能支持解决多种复杂的专业问题；MOE架构的模型里面可能包含Transformer架构的模型；
机器学习技术： 表示实现AI的一大类技术，包括大家经常听到的深度学习、监督学习、强化学习，这些都属于机器学习的一种技术，具体是啥作为产品经理而言不需要过分深究，只需要知道这些xx学习之间的关系就好，别被技术人员们带沟里去了；
NLP技术（自然语言处理）： NLP是AI的一个应用领域，专注于计算机理解、解释、生成人力语言，用于文本分析、机器翻译、语音识别和对话系统等应用场景，简单一点讲，就是把很多信息转换成人类自然语言能够理解的信息的一种技术；
CV计算机视觉技术：如果说NLP处理的是文本，那么CV相当于是解决视觉内容相关的技术，CV技术包括常见的图像识别技术、视频分析技术、图像分割技术等，都属于CV技术，CV技术也是大模型应用中常见的技术，特别是后面会讲到的多模态大模型技术；
语音识别和合成技术：包括语音转换为文本技术，以及语音合成技术，例如文本合成语音技术（简称TTS技术）；
检索增强生成技术（RAG)： 表示大模型基于搜索引擎和知识库检索的内容生成内容的技术，RAG是大部分AI应用落地的时候都会涉及的技术；
知识图谱 (Knowledge Graph)：知识图谱是一种把知识关联起来的技术，通过知识图谱技术，可以让知识之间建立联系，帮助模型更好、更快的获取到最相关的知识，从而提升模型处理复杂关联信息，以及AI推理能力；
Function Call ：是指在大型语言模型（如GPT等）中，通过调用模型内置的或外部的函数，使其能够完成特定的任务或执行特定的操作。这一机制让模型不仅仅是一个生成文本的工具，而能够通过指定调用不同的功能，执行更多样化、具体的操作。Function Call 让大模型能够和多种API能力结合，从而让大模型的应用更好的落地，比如大模型要支持内容检索、文档识别等能力，就需要基于Function Call 的能力来实现；

二、大模型训练与优化技术相关术语

预训练 Pre-training：表示在大量数据集上训练模型的过程，预训练的数据集通常比较大，种类也比较多，训练后获得的是一个通用能力比较强的大模型，就好像一个人通过义务教育和上大学学习了多种通用知识，具备解决通用问题的哪里；
模型微调 Fine-tuning：模型微调表示大模型在特定任务或小数据集上进一步训练模型以提高模型解决针对性问题的表现，与预训练阶段不同的是微调阶段使用的数据量相比更小，且主要使用垂直领域的数据，通过微调获得的是一个垂直模型和行业模型，模型微调，就好像入职支持的毕业生，开始接受企业的专业技能的培训；
提示词工程Prompt Engineering：用产品经理的语言理解，就是使用大模型更容易理解的提问方式，让大模型更好的输入用户想要的结果，所以提示词工程就是一门学会提问题的技巧；
模型蒸馏： 模型蒸馏是一种通过将大模型（称为教师模型）的知识传递给一个小模型（称为学生模型）的技术。学生模型通过学习教师模型输出的知识来提高其性能，保持与大模型相近的精度。
模型剪枝： 模型剪枝表示去除大模型不需要的参数，把整体的参数规模降低下来，从而降低模型的计算量和成本消耗；

三、AI应用相关术语

智能体Agent： Agent简单理解就是具备某一项能力的AI应用，如果互联网时代的应用叫APP，AI时代的应用叫Agent；
Chatbot： Chatbot表示AI聊天机器人，表示一类以聊天的方式为应用交互的AI应用，包括像ChatGPT这类的产品，都属于Chatbot类应用；

四、大模型表现相关的术语

涌现： 指的是当大模型的参数规模达到一定的规模之后，大模型能够展现出更多超出预期的能力；
幻觉： 表示大模型在生成内容的过程中出现了胡说八道的情况，错误的把一些不正确的事实当做真实的情况处理，从而导致生成结果不真实的现象；
失忆：表示当对话轮次和长度达到一定限度之后，模型突然变傻，开始出现重复和失忆的情况，大模型的记忆主要受模型的上下文长度等影响；

五、大模型和传统模型的区别

区别于传统的模型，大模型概括起来具备如下的特点：

具备理解和生成自然语言的能力： 很多以前我们接触的传统模型，可能并不能够理解人类的自然语言，更不用说生成人力能理解的自然语言；
具备上下文记忆的能力： 大模型具备记忆能力，能够关联上下文对话，而不是一个失忆的机器人，这个是区别很多传统模型的差异点之一；
基于大量的无标注文本，通过无监督的方式预训练： 和很多传统模型需要依赖大量的标注数据的方式不同，无标注数据的方式大大的节省了数据清理和准备的成本；且预训练需要大量的训练数据，这些数据用于调整模型的参数，使其能够准确地执行任务，GPT3.5的训练语料高达45T；
参数规模巨大，大部分大模型的参数规模基本都在千亿级别以上： 比如GPT3.5的参数规模已经达到1750亿，而GPT4.0据说可能是万亿级别参数，这些参数在模型训练过程中会学习并调整，以更好地执行特定的任务；
训练成本极高： 由于其规模和复杂性，这些模型还需要显著的计算资源来进行训练和推理，通常需要使用专门的硬件，如GPU或TPU，调研称，要训练像ChatGPT这样的生成式AI，至少需要1万张英伟达A100加速卡的支持，GPT3.5这种参数级别达到1750亿规模的模型，训练需要的费用高达900万美元；

六、大模型的分类有哪些？

1.按照模态类型划分

按照模态划分，目前市面上的大模型，大概可以概括为文本生成模型（例如GPT3.5）、图像生成模型(例如DALL-E)、视频生成模型（例如Sora、可灵）、语音生成模型、多模态模型（例如GPT4.0）等；

2.按照训练的阶段划分

按照训练的阶段可以划分为基础语言模型和指令微调的模型：

**基础语言模型（Basic Language Model）：**基础语言模型是指只在大规模文本语料中进行了预训练的模型，未经过指令和下游任务微调、以及人类反馈等任何对齐优化，比如GPT3就是openai公开的基础语言模型；
指令微调模型（Instruction-Finetuned Language Model）： 这里的指令是指基于自然语言形式的对任务进行描述，经过指令微调的大模型，他们几乎都是在基础语言模型基础上进行指令微调、人类反馈、对齐等优化操作，例如GPT3.5就是在GPT3的基础上训练得到的；

3.按照通用模型和行业模型划分

市面上的大模型也可以划分为通用大模型和行业大模型两类，通用大模型在广泛的任务和领域中虽然表现良好，但是某些行业或领域有特定的数据、术语和任务，通用大模型可能无法充分理解和利用这些领域特定的信息，因此不一定能解决特定行业和场景的问题；行业大模型则是基于通用大模型通过专门的训练和调整，行业大模型可以在特定领域内实现更高的性能和精度，它们能解决特定问题；

七、大模型开发的6个步骤

数据收集与处理： 这个阶段，需要收集大量文本数据，这可能包括书籍、网页、文章等，然后对数据做清洗，移除无关或低质量的内容，然后对数据进行预处理，如分词、去除敏感信息等。
模型设计： 确定模型的架构，比如GPT-4采用的是ransformer架构，然后设定模型的大小，包括层数、隐藏单元数、参数总量等。
预训练（Pre-training）： 模型在这个阶段就像一个学生在上学，通过阅读大量书籍（比如网页、文章等）来学习语言和知识。或者说像一个“海绵”，吸收尽可能多的信息，学会基本的语言规则，比如怎样组成一个句子，单词之间是怎样关联的等。此时的模型模型已经能理解基本的语言结构，但还没有针对特定任务的专业知识；预训练阶段通常需要的数据量非常大，对计算资源的消耗也最大，花费的时间最长；以GPT3为例，完成一次预训练的计算量是3640P浮点计算，需要将近1000块GPU；
指令微调（Fine-tuning with Instructions）：也称为有监督微调，微调的过程其实就是通过投喂给模型一些带有问题和相应理想输出的问答对数据，在此基础上进行再训练，从而得到一个有监督微调模型；这个阶段的模型更像是在进行“职业培训”，学习如何根据特定的指令或任务来调整自己的反应，模型可能会在这个阶段学习如何更好地回答问题、写作或做翻译，对特定类型的问题或任务也有更好的表现。指令微调阶段只要提供相对少数的高质量的数据，模型的训练时间和消耗相对比较小；
奖励（Reward）：这个阶段就像给模型设置了一个“激励机制”，通过奖励来让模型知道什么是好的回答或行为，通过这种方式，模型学会了更好地满足用户的需求，从而让模型更加专注于提供有价值、准确的回答，能够更好地适应用户的具体需求；这个过程需要训练模型的人员大量的对模型的响应结果做检测和反馈，逐步的调整其响应的质量，该过程也需要相对较高的数据，需要的时间为天级别；
强化学习（Reinforcement Learning）：最后这个阶段，模型就像在进行“实战演习”，通过不断的尝试和错误来学习怎样做得更好，在这个阶段，模型会在真实世界的复杂情境中尝试各种策略，找出最有效的方法。模型在这个阶段变得更加聪明和灵活，能够在复杂和不确定的情况下做出更好的判断和回答。

八、如何理解大模型的训练和微调？

1.大模型训练需要哪些数据？

文本数据：主要用于训练语言模型，如新闻文章、书籍、社交媒体帖子、维基百科等。
结构化数据：如知识图谱，用于增强语言模型的知识。
半结构化数据：如XML、JSON格式的数据，便于提取信息。

2.训练数据来源

公开数据集：如Common Crawl、Wikipedia、OpenWebText等。
专有数据：公司内部数据或付费获取的专有数据。
用户生成内容：社交媒体、论坛、评论等用户生成的内容。
合成数据：通过生成对抗网络（GAN）或其他生成模型合成的数据。

3.大模型训练需要哪些成本？

计算资源：GPU/TPU的使用成本，主要取决于模型的规模和训练时间。大模型通常需要数千到数万小时的GPU计算时间。
存储成本：用于存储大规模数据集和模型权重。数据集和模型文件可以达到TB级别。
数据获取成本：购买专有数据或数据清洗和标注的人工成本。
能源成本：训练大型模型消耗大量电力，增加运营成本。
研发成本：包括研究人员、工程师的薪资，以及开发和维护模型的费用。

4.大模型的微调

大模型微调包括2个阶段：监督微调（SFT）、强化学习（RLHF）， 两个阶段存在的差异如下：

九、影响大模型的表现的主要因素是什么？

模型架构： 模型的框架类型的选择，会影响大模型的表现，包括模型的性能、效率等，目前市面上大部分的基础大模型采用Transformer框架，以及结合基础大模型和多个子专家模型形成MOE框架，其中子专家模型的表现也会影响整体模型的表现；
训练数据的质量、规模和多样性：模型性能极大地依赖于其训练数据的覆盖范围和多样性，高质量和广泛的数据集有助于模型更准确地理解和生成语言，目前大部分模型主要还是使用公开的数据为主，拥有更丰富的优质的数据资源的公司，将拥有更优越的优势；
参数规模： 参数越多，模型通常能够更好地学习和捕捉复杂的数据模式，但同时也增加了计算成本，因此拥有强大的算力资源的企业，将拥有更高的优势，对于算力，核心取决于计算量（GPU的数量）、网络、存储三个维度的资源情况；
算法效率： 算法能力决定了模型的推理能力和“聪明”程度，很多厂商的大模型能力上的差异，也主要是因为各个公司黑盒算法的差异，该部分是大模型厂商的核心壁垒和技术优势；
训练次数： 确保模型有足够的训练次数以达到最优性能，同时避免过度训练导致的过拟合问题。

十、大模型的局限性有哪些？

1.“幻觉”问题

幻觉问题指的是模型生成看似合理但实际上是错误或虚构的信息。在自然语言处理中，这可能表现为模型生成的文本或回答在表面上看起来合理，但实际上却缺乏真实性或准确性；从目前大模型的表现看，幻觉问题，是大部分用户对于大模型应用产生质疑，以及大模型生成结果难以直接使用的主要原因之一，目前也是较难解决的问题；对于AI应用层而言，也是最头疼的问题；

大模型为什么会出现幻觉的情况？主要来源于如下几个原因：