小白也能看懂的大模型科普，带你入门AI大模型

最新推荐文章于 2025-05-16 08:21:39 发布

和老莫一起学AI

最新推荐文章于 2025-05-16 08:21:39 发布

阅读量1.3k

点赞数 20

文章标签：人工智能 java 知识图谱 ai 大模型程序员转行

本文链接：https://blog.youkuaiyun.com/2401_85373691/article/details/144735823

版权

作为小白，想将我所了解到的大模型相关知识进行一次整合，同时梳理一下脑内的知识体系，所知所想不一定准确，希望能与大家共同分享讨论。

一.大模型常见的概念理解

对于计算机系或相关专业的人来说，对大模型应该是不太陌生，但是对大部分的普通人，大模型还是一个似懂非懂的概念。对于当前的所有大模型（LLM），指的都是大语言模型，一般也是生成式的模型，最知名的应该就是ChatGPT，Kimi等chatbot了；

对于大模型，有几个名词可以了解：

深度学习： 深度学习是一种基于神经网络的机器学习方法，特点是通过多层的网络架构来学习数据的特征表示。它的优点在于能够处理大量数据，自动提取特征，因此在很多复杂任务，比如处理图像，音频，文本等内容上非常的有效。
**监督学习：**同样是一种机器学习方法，它的最大特点是通过标记好的数据（输入输出对）进行训练，通过输入预测输出来学习映射关系，从而达到预测未知数据的输出，一般用于分类和回归预测。常见的监督学习算法有机会再讲；
无监督学习： 与监督学习相反，无监督学习的目的是从没标签的数据中学习到数据的结构或模式，发现规律，因此一般用于聚类和降维，来进行数据分组，模式识别和降低计算复杂度等方面的应用。
强化学习： 强化学习没有初始数据，通过与环境的交互进行学习。学习过程中模型会采取action，根据环境给出的reward来调整其策略，目的是最大化长期reward；

LLM依赖于不同的模型架构来处理和生成语言数据，不同的架构会影响模型的性能效率和计算成本，因此要在算力和成本之间做一个trade off；

Transformer： 说到模型架构不得不提transformer，包括GPT4.0及国内大部分模型都是采用这个架构。对比之前的架构，transformer的优势在于她的并行处理能力很高，在大规模数据集下计算效率比其他架构高出很多；同时，transformer能够通过自注意力机制捕捉到整个序列中任意两个词之间的联系，也就是能够进行灵活的上下文理解；
MOE架构： MOE架构混合了多种专家模型来形成一个参数量巨大的模型，作为稀疏模型，它能够通过动态调用专家网络来优化计算资源的利用，提高模型处理任务的效率和速度，MOE架构中也有可能包含Transformer。MOE架构的主要优势在于能够在大规模数据和模型参数的情况下仍保持计算效率，且能够在保持模型能力的同时显著减少计算成本。

还有一些当下应用比较广泛的技术：

NLP技术（自然语言处理）： 其实就是专注于使用计算机理解解释并生成人类语言，用于文本翻译，情感分析，文本分类等任务，同样也应用于语音的识别和合成，日常中比较常用的就是和ai进行对话，以及语音助手等功能
CV技术（计算机视觉）： 解决视觉相关的内容，通过对图像的获取，预处理到进一步的特征提取和识别，进行分类来提高计算机对图像和视频数据的理解，目前广泛应用于图像识别分类，目标检测和跟踪，视频生成，三维重建，数字人等领域。
预训练： 表示在大量数据集上训练模型的过程，类比于一个学生从小学到大学的学习过程，通过学习通用知识来解决各种通用问题
模型微调： 表示在特定任务或小数据集上进行进一步的训练来提高模型在该任务或领域中的表现，类比于个人学习专业知识来解决对口工作上的问题
检索增强生成技术（RAG）： 是一种将信息检索与文本生成相结合的技术。它的核心思想是在生成文本回答时，利用外部知识源来增强生成的质量和准确性。举例来说，当用户提出问题时，RAG会在知识库中检索相关的知识来做出更准确的回答。
知识图谱： 将知识以图的形式呈现，其主要由节点（实体）和边（关系）构成，通过对数据源中实体和关系的抽取和连接，存储到图数据库或其他结构中，可以为用户提供更精准的搜索结果，相关推荐等结果。
模型蒸馏： 模型蒸馏是一种通过将大模型（称为教师模型）的知识传递给一个小模型（称为学生模型）的技术。学生模型通过学习教师模型输出的知识来提高其性能，保持与大模型相近的精度。
模型剪枝： 模型剪枝表示去除大模型不需要的参数，把整体的参数规模降低下来，从而降低模型的计算量和成本消耗；

二.Transformer和GPT之间的联系

GPT（Generative Pre-trained Transformer）其实是基于 Transformer 架构的一个具体实现。

当transformer架构出现后，通过其多头注意力机制，实际上是解决了理解上下文，处理大批量数据，预测文本的能力，因此是为GPT的发展打下了基础，在此之上，Openai使用预训练+微调的方式来改进和使用transformer架构，和其原始设计不同，实际上GPT只用了架构中的解码器部分并进行了优化：

架构

原始的transformer包含了编码器和解码器部分，编码器部分用于理解文本，解码器部分用于生成文本。

而GPT没有编码器部分，他的理解能力来自于在预训练阶段的学习，在预训练时，GPT使用了自回归模式训练，通过无监督学习，使用大量的无标签文本数据（如维基百科、书籍、网页等），来让gpt学习语言的统计特性和上下文结构，在这一阶段，GPT通过给定部分文本（即前面的单词），学会预测下一个词。这种训练方式让模型逐渐理解语言的结构、句法规则、常见的词汇搭配等，因此哪怕没有编码器来显式处理文本每个词的向量表示，他仍然能够学习到如何捕捉词汇的关系和语言模式。

在预训练结束后进行微调，针对特定任务，比如文本分类，文本翻译等任务，通过标注的数据进行监督学习，来处理特定任务；

2.应用领域

传统Transformer框架可以应用于多种序列到序列任务，如机器翻译、文本总结、语音识别等，由于包含编码器和解码器，Transformer能够处理多种输入和输出格式的任务；

GPT主要用于生成任务，如文本生成、对话系统、问答系统等。它在生成连贯且有创意的文本方面表现出色。

三.大模型和传统模型的区别

首先区分大模型和多模态大模型的区别，多模态大模型是具备语言，图片，视频，语音等多个模态的模型，如gpt4o，而讨论大模型更多情况下指的是大语言模型LLM，用于解决自然语言任务方面的任务，如gpt3.5，传统模型和LLM的区别在以下几点：

模型规模

传统模型参数数量一般为几千到几十万左右，而仅是GPT3就有1750亿个参数，这么大的参数规模能够让其学习到很复杂的模式和关系，进而进行更好的拟合，来应对各种复杂的生成任务；同时，大模型的数据规模要求也是巨大的，因此个人很难进行对大模型的训练，因为难以获得质量高且数量规模巨大的数据集；
训练方式

传统模型通常需要大量的人工特征工程，比如给数据打标注进行监督学习，而LLM主要通过无监督学习的方法进行训练，大大节省了数据清洗，标注的成本。
泛化能力

传统模式在设计之初一般就针对特定的任务和领域进行优化，泛化到其他任务和领域的能力较弱，而大模型由于网络结构和数据规模的不同从而能够达到较高的泛化能力，能广泛的应用在各种各样的问题上。
具备上下文记忆的能力

大模型具备记忆功能，这使它能够关联上下文，语法结构、语义信息以及不同语言之间的复杂对应关系，从而生成高质量的结果。

四.GPT是如何生成文本的

模型收到提示词之后，首先将输入的内容做分词处理，拆分成多个token
使用基于transformer的架构理解token之间的关系和提示词的含义
基于上下文预测下一个token的概率分布，每个概率对应一个单词
通过概率值或其他模式来选择最好的一个token作为下一个词的预测结果
生成该词后，新生成的词与之前的输入一起重复经过上述步骤，逐步生成文本直到结束。

五.大模型开发的步骤

大模型开发主要经过以下几个步骤：

数据收集及处理

这个阶段主要根据模型的应用场景收集相关数据，对数据进行清洗，标准化和归一化等处理，保证数据的多样性，平衡性和可用性；

模型设计

根据应用场景和数据特点选择合适的模型架构，比如处理序列数据的transformer架构或者处理图像数据的卷积神经网络（CNN）或者CNN与transformer结合等架构；
预训练

确定好合适的训练算法和训练参数之后使用收集到的数据对模型进行训练，这一过程通常是最消耗算力和时间的；
指令微调

针对预训练好的模型，在特定领域的问题的表现还不足以达到预期，因此需要对模型进行微调，微调的过程主要是监督学习，通过提供给模型一些输入输出对作为标注数据，让模型学习如何根据特定的指令或任务，模仿正确的回答方式来生成对应回答；
奖励

这个阶段主要给模型提供了一个激励机制，通过奖励让模型知道什么回答是好回答，通过不断的回答-奖励-修正-回答的循环，让模型能够提供更高质量，更符合用户需求的答案，同时，也会对模型进行内部的评估和外部的验证及对比。

本期主要介绍了大模型一些比较基础的概念，LLM如GPT之类的模型的特点和对比优势，以及模型开发的一般过程，下一期主要会针对训练过程中的一些关键技术，比如SFT,RLFH,RAG等进行普及和知识梳理。

零基础如何学习AI大模型

领取方式在文末

为什么要学习大模型？

学习大模型课程的重要性在于它能够极大地促进个人在人工智能领域的专业发展。大模型技术，如自然语言处理和图像识别，正在推动着人工智能的新发展阶段。通过学习大模型课程，可以掌握设计和实现基于大模型的应用系统所需的基本原理和技术，从而提升自己在数据处理、分析和决策制定方面的能力。此外，大模型技术在多个行业中的应用日益增加，掌握这一技术将有助于提高就业竞争力，并为未来的创新创业提供坚实的基础。

大模型典型应用场景

①AI+教育：智能教学助手和自动评分系统使个性化教育成为可能。通过AI分析学生的学习数据，提供量身定制的学习方案，提高学习效果。
②AI+医疗：智能诊断系统和个性化医疗方案让医疗服务更加精准高效。AI可以分析医学影像，辅助医生进行早期诊断，同时根据患者数据制定个性化治疗方案。
③AI+金融：智能投顾和风险管理系统帮助投资者做出更明智的决策，并实时监控金融市场，识别潜在风险。
④AI+制造：智能制造和自动化工厂提高了生产效率和质量。通过AI技术，工厂可以实现设备预测性维护，减少停机时间。
…
这些案例表明，学习大模型课程不仅能够提升个人技能，还能为企业带来实际效益，推动行业创新发展。