一文了解大模型始末

网运少年

已于 2025-02-25 09:36:19 修改

阅读量649

点赞数 24

分类专栏：人工智能文章标签：大模型语言模型人工智能

于 2025-02-20 16:49:31 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/qq_33782021/article/details/145755963

版权

人工智能专栏收录该内容

3 篇文章

订阅专栏

目录

1、通用智能大模型：机器学习是我来时的路

2、大模型分类

3、语言大模型的发展史

4、大模型大在哪？

5、大模型的能力

6、大模型带来的AI新范式

7、大模型的核心架构

1、通用智能大模型：机器学习是我来时的路

2000年左右，机器学习阶段，以语音为例，为了做语音识别，需要先收集语音的原始信号，通过特征分析，给定机器学习输入和输出，然后机器学习来完成学习输入、输出之间隐含的函数关系的任务。

然而，人工智能的学习有很多任务，如感知任务、认知任务、转换任务等，这些任务非常具象化，也就是说，目的明确，然后，不断提高这些任务的处理能力。

以自然语言处理为例，包含十几项到二十几项任务，如情感识别、识别主谓语、识别地名、多个语句的相似性等。

2017年，Google提出了Transformer模型结构，统一了大模型结构，在谷歌2017年提出Transformer之前，也存在很多网络架构，如循环神经网络(RNN)、卷积神经网络(CNN)等，那时，会先分析数据，例如：语音数据，大家会根据语音数据波形的特点（短时、稳态特性），利用这些特性去做频谱转换，形成特征数据，然后再找到一个可以表达这些数据的网络架构模型，逻辑上是让模型向数据靠近!

Transformer恰恰相反，不再是模型向数据靠近，而是给了一个模型结构（此结构似乎与任何数据无关），但是，我们又可以将提取的特征数据输入到该模型中。

随着大模型结构统一，低层计算框架可以共性，如TensorFlow，PyTorch等。

此外，硬件也在发生变化，以往都是按照摩尔定律迭代CPU，Transformer的并行计算特性适配了GPU。

2022年11月，ChatGPT横空出世，通用模型时代到来，何为通用模型？即跨模态、跨任务、跨场景，使用统一模型。

Transformer出来后，模型出来很多个，通用智能大模型探索过程：

第一阶段：多任务多场景，比如，面向网络，每个基站有很多预测、决策的任务等，可以一起来做；

第二阶段：预训练，第一阶段训练完的模型可以作为基础，新的任务或数据在此基础上自适应。

第三阶段：基础模型，如GPT，所有任务都可以以此为架构，但是，此模型会一本正经地胡说八道，所以需要人类干预反馈强化学习，使其更符合人类的期望。

第四阶段：通用智能大模型，如ChatGPT。

2、大模型分类

按照输入数据类型的不同，大致可以分为以下几类：

一、语言大模型

如：ChatGPT、文心一言、通义千问

拥有跨领域的知识和语言理解能力，能够基于自然对话方式理解与执行任务。

输入和输出都是人类理解的自然语言

二、代码大模型

代码生成的原始目标是:给定人类意图的描述(例如:"写一个快速排序")，系统自动生成可执行程序。

输入是自然语言，输出是编程语言，因此，对于逻辑理解能力要求更强。

三、视觉大模型

视觉大模型是指在计算机视觉领域中广泛应用的、具有千万级别或更多参数的神经网络模型。一般使用CNN(Convolutional Neural Network)或Transformers等结构进行构建。

视觉大模型可以用于图像分类、目标检测、语义分割等任务，具有很高的准确性和泛化能力。

四、多模态大模型

        多模态大模型是指能够同时处理多种模态数据（文本、图像和语音等）的深度学习模型。
        多模态大模型同时使用文本、图像和语音等数据进行训练，使得模型能够在任务中融合和利用多模态信息。
        多模态大模型能够实现图像、文本、语音等模态之间的统一表示和相互生成，凭借更接近人类认知世界的方式，可广泛应用于图文匹配与检索、自动字幕生成、视觉问答、多模态对话系统、交互式教育和培训等应用场景。

按照应用领域的不同，大模型主要可以分为L0、L1、L2三个层级：

一、通用大模型L0

是指可以在多个领域和任务上通用的大模型。它们利用大算力、使用海量的开放数据与具有巨量参数的深度学习算法，在大规模无标注数据上进行训练，以寻找特征并发现规律，进而形成可“举一反三”的强大泛化能力，可在不进行微调或少量微调的情况下完成多场景任务，相当于AI完成了“通识教育”。

二、行业大模型L1

是指那些针对特定行业或领域的大模型。它们通常使用行业相关的数据进行预训练或微调，以提高在该领域的性能和准确度，相当于AI成为“行业专家”。

三、垂直大模型L2

是指那些针对特定任务或场景的大模型。它们通常使用任务相关的数据进行预训练或微调，以提高在该任务上的性能和效果。

3、语言大模型的发展史

语言大模型（LLM，Large Language Model）

4、大模型大在哪？

1、大参数量

以B(十亿)量级为单位。

2、大数据量

以数百B，甚至以T为单位。

3、大资源量

以成百上千张A100进行训练起步。

4、大领域量

在广泛的领域均表现出色，不局限于某一特定领域。

5、大模型的能力

6、大模型带来的AI新范式

过去小模型时代，不同任务大炼不同的模型，存在场景碎片化、难以快速泛化、落地成本高、周期长、盈利难的问题。

新一代通用人工智能正在从“大炼模型”向“炼大模型”演进，但炼大模型的成本极其高昂，成为少数人的游戏。

预训练基础大模型，通过微调适配多种任务，甚至无需微调，直接通过prompt激发大模型能力，成为新一代技术范式。

7、大模型的核心架构

详见另一篇文章以ChatGPT为例解析大模型背后的技术

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

网运少年 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。