AI产品经理一定要知道的这些大模型LLM概念!万字总结!

部署运行你感兴趣的模型镜像

一、大模型常见的概念理解

1、用产品经理的语言理解常见的AI术语

  1. 大模型(LLM):现有所有的大模型,指的都是大语言模型,并且指的都是生成式的大模型,可以联想到的实际案例包括GPT4.0,GPT4o等;

  2. 深度学习: 深度学习是机器学习的一个子领域,专注于应用多层神经挽留过进行学习,深度学习擅长处理复杂的数据如图像、音频、文本,因此在AI中的应用非常有效;

  3. 监督学习:监督学习是机器学习的一种方法,通过训练数据集来学习从输入到输出的映射关系。训练数据集包含输入-输出对,模型使用这些已标记的数据进行训练,学习如何从输入预测输出。常见的监督学习算法包括线性回归、逻辑回归、支持向量机、K近邻、决策树和随机森林等。

  4. 无监督学习:无监督学习是机器学习的一种方法,在没有标签数据的情况下从数据中发现模式和结构, 它主要用于数据聚类和降维等任务。常见的无监督学习算法包括K均值聚类、层次聚类、DBSCAN、主成分分析(PCA)和t-SNE等。

  5. 半监督学习: 半监督学习 结合少量标记数据和大量未标记数据进行训练。它利用未标记数据的丰富信息和少量标记数据的准确性来提高模型性能。常见的方法包括生成对抗网络(GANs)和自编码器。

  6. 强化学习:强化学习是一种通过与环境交互,并基于奖励和惩罚机制来学习最优策略的方法。强化学习算法通过试错法来优化决策过程,以实现最大化累积奖励。常见算法包括Q学习、策略梯度和深度Q网络(DQN)等。

  7. 模型架构: 模型的架构代表了大模型的主干采用了什么样的设计方式,不同的模型架构会影响大模型的性能、效率、甚至是计算成本,也决定了模型的可拓展性;例如很多大模型的厂商会通过调整模型的架构的方式来缩减模型的计算量,从而减少对计算资源的消耗;

  8. Transformer架构:Transformer是目前主流的大模型采用的模型架构,包括GPT4.0以及国内大部分的大模型,都是采用这个架构,Transformer架构之所以被广泛的使用,主要的原因是这个架构类型让大模型具备了理解人类自然语言、上下文记忆、生成文本的能力;常见的模型架构,除了Transformer架构,还有卷积神经网络(CNN)架构,适用于图像处理,以及生成对抗网络(GAN),适用于图像生成领域;详细关于Transformer架构的介绍可后面部分内容;

  9. MOE架构: MOE架构表示混合专家网络架构,表示混合多种专家模型,形成一个参数量巨大的模型,从而能支持解决多种复杂的专业问题;MOE架构的模型里面可能包含Transformer架构的模型;

  10. 机器学习技术: 表示实现AI的一大类技术,包括大家经常听到的深度学习、监督学习、强化学习,这些都属于机器学习的一种技术,具体是啥作为产品经理而言不需要过分深究,只需要知道这些xx学习之间的关系就好,别被技术人员们带沟里去了;

  11. NLP技术(自然语言处理): NLP是AI的一个应用领域,专注于计算机理解、解释、生成人力语言,用于文本分析、机器翻译、语音识别和对话系统等应用场景,简单一点讲,就是把很多信息转换成人类自然语言能够理解的信息的一种技术;

  12. CV计算机视觉技术:如果说NLP处理的是文本,那么CV相当于是解决视觉内容相关的技术,CV技术包括常见的图像识别技术、视频分析技术、图像分割技术等,都属于CV技术,CV技术也是大模型应用中常见的技术,特别是后面会讲到的多模态大模型技术;

  13. 语音识别和合成技术:包括语音转换为文本技术,以及语音合成技术,例如文本合成语音技术(简称TTS技术);

  14. 检索增强生成技术(RAG): 表示大模型基于搜索引擎和知识库检索的内容生成内容的技术,RAG是大部分AI应用落地的时候都会涉及的技术;

  15. 知识图谱 (Knowledge Graph):知识图谱是一种把知识关联起来的技术,通过知识图谱技术,可以让知识之间建立联系,帮助模型更好、更快的获取到最相关的知识,从而提升模型处理复杂关联信息,以及AI推理能力;

  16. Function Call :是指在大型语言模型(如GPT等)中,通过调用模型内置的或外部的函数,使其能够完成特定的任务或执行特定的操作。这一机制让模型不仅仅是一个生成文本的工具,而能够通过指定调用不同的功能,执行更多样化、具体的操作。Function Call 让大模型能够和多种API能力结合,从而让大模型的应用更好的落地,比如大模型要支持内容检索、文档识别等能力,就需要基于Function Call 的能力来实现;

二、大模型训练与优化技术相关术语

  1. 预训练 Pre-training:表示在大量数据集上训练模型的过程,预训练的数据集通常比较大,种类也比较多,训练后获得的是一个通用能力比较强的大模型,就好像一个人通过义务教育和上大学学习了多种通用知识,具备解决通用问题的哪里

  2. 模型微调 Fine-tuning:模型微调表示大模型在特定任务或小数据集上进一步训练模型以提高模型解决针对性问题的表现,与预训练阶段不同的是微调阶段使用的数据量相比更小,且主要使用垂直领域的数据,通过微调获得的是一个垂直模型和行业模型,模型微调,就好像入职支持的毕业生,开始接受企业的专业技能的培训;

  3. 提示词工程Prompt Engineering:用产品经理的语言理解,就是使用大模型更容易理解的提问方式,让大模型更好的输入用户想要的结果,所以提示词工程就是一门学会提问题的技巧;

  4. 模型蒸馏: 模型蒸馏是一种通过将大模型(称为教师模型)的知识传递给一个小模型(称为学生模型)的技术。学生模型通过学习教师模型输出的知识来提高其性能,保持与大模型相近的精度。

  5. 模型剪枝: 模型剪枝表示去除大模型不需要的参数,把整体的参数规模降低下来,从而降低模型的计算量和成本消耗;

三、AI应用相关术语

  1. 智能体Agent: Agent简单理解就是具备某一项能力的AI应用,如果互联网时代的应用叫APP,AI时代的应用叫Agent;

  2. Chatbot: Chatbot表示AI聊天机器人,表示一类以聊天的方式为应用交互的AI应用,包括像ChatGPT这类的产品,都属于Chatbot类应用;

四、大模型表现相关的术语

  1. 涌现: 指的是当大模型的参数规模达到一定的规模之后,大模型能够展现出更多超出预期的能力;

  2. 幻觉: 表示大模型在生成内容的过程中出现了胡说八道的情况,错误的把一些不正确的事实当做真实的情况处理,从而导致生成结果不真实的现象;

  3. 失忆:表示当对话轮次和长度达到一定限度之后,模型突然变傻,开始出现重复和失忆的情况,大模型的记忆主要受模型的上下文长度等影响;

五、大模型和传统模型的区别

区别于传统的模型,大模型概括起来具备如下的特点:

  1. 具备理解和生成自然语言的能力: 很多以前我们接触的传统模型,可能并不能够理解人类的自然语言,更不用说生成人力能理解的自然语言;

  2. 具备上下文记忆的能力: 大模型具备记忆能力,能够关联上下文对话,而不是一个失忆的机器人,这个是区别很多传统模型的差异点之一;

  3. 基于大量的无标注文本,通过无监督的方式预训练: 和很多传统模型需要依赖大量的标注数据的方式不同,无标注数据的方式大大的节省了数据清理和准备的成本;且预训练需要大量的训练数据,这些数据用于调整模型的参数,使其能够准确地执行任务,GPT3.5的训练语料高达45T;

  4. 参数规模巨大,大部分大模型的参数规模基本都在千亿级别以上: 比如GPT3.5的参数规模已经达到1750亿,而GPT4.0据说可能是万亿级别参数,这些参数在模型训练过程中会学习并调整,以更好地执行特定的任务;

  5. 训练成本极高: 由于其规模和复杂性,这些模型还需要显著的计算资源来进行训练和推理,通常需要使用专门的硬件,如GPU或TPU,调研称,要训练像ChatGPT这样的生成式AI,至少需要1万张英伟达A100加速卡的支持,GPT3.5这种参数级别达到1750亿规模的模型,训练需要的费用高达900万美元;

六、大模型的分类有哪些?

1.按照模态类型划分

按照模态划分,目前市面上的大模型,大概可以概括为文本生成模型(例如GPT3.5)、图像生成模型(例如DALL-E)、视频生成模型(例如Sora、可灵)、语音生成模型、多模态模型(例如GPT4.0)等;

2.按照训练的阶段划分

按照训练的阶段可以划分为基础语言模型和指令微调的模型:

  1. **基础语言模型(Basic Language Model):**基础语言模型是指只在大规模文本语料中进行了预训练的模型,未经过指令和下游任务微调、以及人类反馈等任何对齐优化,比如GPT3就是openai公开的基础语言模型;

  2. 指令微调模型(Instruction-Finetuned Language Model): 这里的指令是指基于自然语言形式的对任务进行描述,经过指令微调的大模型,他们几乎都是在基础语言模型基础上进行指令微调、人类反馈、对齐等优化操作,例如GPT3.5就是在GPT3的基础上训练得到的;

3.按照通用模型和行业模型划分

市面上的大模型也可以划分为通用大模型和行业大模型两类,通用大模型在广泛的任务和领域中虽然表现良好,但是某些行业或领域有特定的数据、术语和任务,通用大模型可能无法充分理解和利用这些领域特定的信息,因此不一定能解决特定行业和场景的问题;行业大模型则是基于通用大模型通过专门的训练和调整,行业大模型可以在特定领域内实现更高的性能和精度,它们能解决特定问题;

七、大模型开发的6个步骤

  1. 数据收集与处理: 这个阶段,需要收集大量文本数据,这可能包括书籍、网页、文章等,然后对数据做清洗,移除无关或低质量的内容,然后对数据进行预处理,如分词、去除敏感信息等。

  2. 模型设计: 确定模型的架构,比如GPT-4采用的是ransformer架构,然后设定模型的大小,包括层数、隐藏单元数、参数总量等。

  3. 预训练(Pre-training): 模型在这个阶段就像一个学生在上学,通过阅读大量书籍(比如网页、文章等)来学习语言和知识。或者说像一个“海绵”,吸收尽可能多的信息,学会基本的语言规则,比如怎样组成一个句子,单词之间是怎样关联的等。此时的模型模型已经能理解基本的语言结构,但还没有针对特定任务的专业知识;预训练阶段通常需要的数据量非常大,对计算资源的消耗也最大,花费的时间最长;以GPT3为例,完成一次预训练的计算量是3640P浮点计算,需要将近1000块GPU;

  4. 指令微调(Fine-tuning with Instructions):也称为有监督微调,微调的过程其实就是通过投喂给模型一些带有问题和相应理想输出的问答对数据,在此基础上进行再训练,从而得到一个有监督微调模型;这个阶段的模型更像是在进行“职业培训”,学习如何根据特定的指令或任务来调整自己的反应,模型可能会在这个阶段学习如何更好地回答问题、写作或做翻译,对特定类型的问题或任务也有更好的表现。指令微调阶段只要提供相对少数的高质量的数据,模型的训练时间和消耗相对比较小;

  5. 奖励(Reward):这个阶段就像给模型设置了一个“激励机制”,通过奖励来让模型知道什么是好的回答或行为,通过这种方式,模型学会了更好地满足用户的需求,从而让模型更加专注于提供有价值、准确的回答,能够更好地适应用户的具体需求;这个过程需要训练模型的人员大量的对模型的响应结果做检测和反馈,逐步的调整其响应的质量,该过程也需要相对较高的数据,需要的时间为天级别;

  6. 强化学习(Reinforcement Learning):最后这个阶段,模型就像在进行“实战演习”,通过不断的尝试和错误来学习怎样做得更好,在这个阶段,模型会在真实世界的复杂情境中尝试各种策略,找出最有效的方法。模型在这个阶段变得更加聪明和灵活,能够在复杂和不确定的情况下做出更好的判断和回答。

八、如何理解大模型的训练和微调?

1.大模型训练需要哪些数据?

  1. 文本数据:主要用于训练语言模型,如新闻文章、书籍、社交媒体帖子、维基百科等。
  2. 结构化数据:如知识图谱,用于增强语言模型的知识。
  3. 半结构化数据:如XML、JSON格式的数据,便于提取信息。

2.训练数据来源

  1. 公开数据集:如Common Crawl、Wikipedia、OpenWebText等。
  2. 专有数据:公司内部数据或付费获取的专有数据。
  3. 用户生成内容:社交媒体、论坛、评论等用户生成的内容。
  4. 合成数据:通过生成对抗网络(GAN)或其他生成模型合成的数据。

3.大模型训练需要哪些成本?

  • 计算资源:GPU/TPU的使用成本,主要取决于模型的规模和训练时间。大模型通常需要数千到数万小时的GPU计算时间。
  • 存储成本:用于存储大规模数据集和模型权重。数据集和模型文件可以达到TB级别。
  • 数据获取成本:购买专有数据或数据清洗和标注的人工成本。
  • 能源成本:训练大型模型消耗大量电力,增加运营成本。
  • 研发成本:包括研究人员、工程师的薪资,以及开发和维护模型的费用。

4.大模型的微调

大模型微调包括2个阶段:监督微调(SFT)、强化学习(RLHF), 两个阶段存在的差异如下:

九、影响大模型的表现的主要因素是什么?

  1. 模型架构: 模型的框架类型的选择,会影响大模型的表现,包括模型的性能、效率等,目前市面上大部分的基础大模型采用Transformer框架,以及结合基础大模型和多个子专家模型形成MOE框架,其中子专家模型的表现也会影响整体模型的表现;

  2. 训练数据的质量、规模和多样性:模型性能极大地依赖于其训练数据的覆盖范围和多样性,高质量和广泛的数据集有助于模型更准确地理解和生成语言,目前大部分模型主要还是使用公开的数据为主,拥有更丰富的优质的数据资源的公司,将拥有更优越的优势;

  3. 参数规模: 参数越多,模型通常能够更好地学习和捕捉复杂的数据模式,但同时也增加了计算成本,因此拥有强大的算力资源的企业,将拥有更高的优势,对于算力,核心取决于计算量(GPU的数量)、网络、存储三个维度的资源情况;

  4. 算法效率: 算法能力决定了模型的推理能力和“聪明”程度,很多厂商的大模型能力上的差异,也主要是因为各个公司黑盒算法的差异,该部分是大模型厂商的核心壁垒和技术优势;

  5. 训练次数: 确保模型有足够的训练次数以达到最优性能,同时避免过度训练导致的过拟合问题。

十、大模型的局限性有哪些?

1.“幻觉”问题

幻觉问题指的是模型生成看似合理但实际上是错误或虚构的信息。在自然语言处理中,这可能表现为模型生成的文本或回答在表面上看起来合理,但实际上却缺乏真实性或准确性;从目前大模型的表现看,幻觉问题,是大部分用户对于大模型应用产生质疑,以及大模型生成结果难以直接使用的主要原因之一,目前也是较难解决的问题;对于AI应用层而言,也是最头疼的问题;

大模型为什么会出现幻觉的情况?主要来源于如下几个原因:

  • 过拟合训练数据: 模型在训练时可能过度拟合了训练数据中的噪声或错误信息,导致模型在生成时产生虚构的内容。

  • 训练数据本身包含虚假信息: 如果训练数据中未能充分覆盖各种真实场景,模型可能会在未见过的情况下产生虚构的信息。

  • 对信息可信度的不足考虑: 模型未能有效地考虑生成信息的可信度,而是过于自信地产生表面上合理但实际上虚构的内容。

是否有缓解幻觉问题的解决方案?

目前看,可能能通过如下几个方式缓解幻觉问题,至于根本性的解决,目前行业似乎并没有看到特别好的方法:

  1. 使用更丰富的训练数据: 引入更多多样性和真实性的训练数据,以减少模型过度拟合错误信息的可能性。

  2. 信息可信度建模,增加鉴伪机制: 引入模型组件来估计生成信息的可信度,以过滤或降低虚构信息的生成概率;

  3. 外部验证机制: 使用外部的验证机制或信息源来验证模型生成的内容,确保其与真实世界一致。

2.“失忆”问题

失忆问题是指模型在长对话或复杂语境中可能遗忘先前提到的信息,导致生成的内容缺乏一致性和上下文完整性;导致失忆的主要原因包括:

  • 模型上下文记忆限制: 模型可能受到上下文记忆能力的限制,无法有效地保持和利用长期依赖的信息。

  • 训练数据中的缺失信息: 如果训练数据中缺乏长对话或复杂语境的例子,模型可能未能学到正确的信息保持和检索方法。

  • 对话偏移: 在长对话中,模型可能逐渐偏离初始话题,导致遗忘先前提到的关键信息。

目前行业内似乎对于失忆问题,已经可以有一定的缓解,据了解,相应的解决方法包括:

  • 增加上下文长度,从而提升记忆容量: 通过持续的提升大模型的记忆长度,从而提高模型对长期信息的保持和检索能力。

  • 多样性训练数据: 引入更多包含长对话和复杂语境的训练数据,使模型能够学到更好的信息管理策略。

  • 对话管理技术: 引入先进的对话管理技术,确保模型在长对话中能够保持一致性,并有效地利用先前提到的信息。

3.“生成不当内容”问题

生成不当内容问题指的是模型在生成文本时可能产生不适当、有害或歧视性的内容,引发道德和社会责任问题。导致失忆的主要原因包括:

  1. 训练数据中的偏见: 模型可能在训练数据中学到了不适当的观点、偏见或刻板印象,导致生成不当内容。

  2. 过度拟合负面样本: 如果训练数据中包含大量负面样本,模型可能过度拟合这些负面情况,导致生成负面内容的可能性增加。

  3. 缺乏伦理约束: 模型训练时未考虑伦理和社会责任问题,缺乏对不适当内容的抑制;

对于以上的关于生成内容的安全、伦理、道德等相关的问题,目前国内大部分的厂商似乎也得到了一定的解决,包括对模型的输入和输出内容经过安全引擎做过滤和处理,避免了对用户直接输出不恰当的内容;


最后分享

在大模型时代,AI技术正以前所未有的速度发展,为成为AI产品经理提供了很好的机遇。

这里也给大家精心准备了全套的 AI大模型+AI产品经理学习资源,有需要的小伙伴可以微信扫描下方优快云官方认证二维码,免费领取【保证100%免费

请添加图片描述

您可能感兴趣的与本文相关的镜像

ComfyUI

ComfyUI

AI应用
ComfyUI

ComfyUI是一款易于上手的工作流设计工具,具有以下特点:基于工作流节点设计,可视化工作流搭建,快速切换工作流,对显存占用小,速度快,支持多种插件,如ADetailer、Controlnet和AnimateDIFF等

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值