目录
1、通用智能大模型:机器学习是我来时的路
2000年左右,机器学习阶段,以语音为例,为了做语音识别,需要先收集语音的原始信号,通过特征分析,给定机器学习输入和输出,然后机器学习来完成学习输入、输出之间隐含的函数关系的任务。
然而,人工智能的学习有很多任务,如感知任务、认知任务、转换任务等,这些任务非常具象化,也就是说,目的明确,然后,不断提高这些任务的处理能力。
以自然语言处理为例,包含十几项到二十几项任务,如情感识别、识别主谓语、识别地名、多个语句的相似性等。
2017年,Google提出了Transformer模型结构,统一了大模型结构, 在谷歌2017年提出Transformer之前,也存在很多网络架构,如循环神经网络(RNN)、卷积神经网络(CNN)等,那时,会先分析数据,例如:语音数据,大家会根据语音数据波形的特点(短时、稳态特性),利用这些特性去做频谱转换,形成特征数据,然后再找到一个可以表达这些数据的网络架构模型,逻辑上是让模型向数据靠近!
Transformer恰恰相反,不再是模型向数据靠近,而是给了一个模型结构(此结构似乎与任何数据无关),但是,我们又可以将提取的特征数据输入到该模型中。
随着大模型结构统一,低层计算框架可以共性,如TensorFlow,PyTorch等。
此外,硬件也在发生变化,以往都是按照摩尔定律迭代CPU,Transformer的并行计算特性适配了GPU。
2022年11月,ChatGPT横空出世,通用模型时代到来,何为通用模型?即跨模态、跨任务、跨场景,使用统一模型。
Transformer出来后,模型出来很多个, 通用智能大模型探索过程:
第一阶段:多任务多场景,比如,面向网络,每个基站有很多预测、决策的任务等,可以一起来做;
第二阶段:预训练,第一阶段训练完的模型可以作为基础,新的任务或数据在此基础上自适应。
第三阶段:基础模型,如GPT,所有任务都可以以此为架构,但是,此模型会一本正经地胡说八道,所以需要人类干预反馈强化学习,使其更符合人类的期望。
第四阶段:通用智能大模型,如ChatGPT。
2、大模型分类
按照输入数据类型的不同,大致可以分为以下几类:
一、语言大模型
如:ChatGPT、文心一言、通义千问
拥有跨领域的知识和语言理解能力,能够基于自然对话方式理解与执行任务。
输入和输出都是人类理解的自然语言
二、代码大模型
代码生成的原始目标是:给定人类意图的描述(例如:"写一个快速排序"),系统自动生成可执行程序。
输入是自然语言,输出是编程语言,因此,对于逻辑理解能力要求更强。
三、视觉大模型
视觉大模型是指在计算机视觉领域中广泛应用的、具有千万级别或更多参数的神经网络模型。一般使用CNN(Convolutional Neural Network)或Transformers等结构进行构建。
视觉大模型可以用于图像分类、目标检测、语义分割等任务,具有很高的准确性和泛化能力。
四、多模态大模型
多模态大模型是指能够同时处理多种模态数据(文本、图像和语音等)的深度学习模型。
多模态大模型同时使用文本、图像和语音等数据进行训练,使得模型能够在任务中融合和利用多模态信息。
多模态大模型能够实现图像、文本、语音等模态之间的统一表示和相互生成,凭借更接近人类认知世界的方式,可广泛应用于图文匹配与检索、自动字幕生成、视觉问答、多模态对话系统、交互式教育和培训等应用场景。
按照应用领域的不同,大模型主要可以分为L0、L1、L2三个层级:
一、通用大模型L0
是指可以在多个领域和任务上通用的大模型。它们利用大算力、使用海量的开放数据与具有巨量参数的深度学习算法,在大规模无标注数据上进行训练,以寻找特征并发现规律,进而形成可“举一反三”的强大泛化能力,可在不进行微调或少量微调的情况下完成多场景任务,相当于AI完成了“通识教育”。
二、行业大模型L1
是指那些针对特定行业或领域的大模型。它们通常使用行业相关的数据进行预训练或微调,以提高在该领域的性能和准确度,相当于AI成为“行业专家”。
三、垂直大模型L2
是指那些针对特定任务或场景的大模型。它们通常使用任务相关的数据进行预训练或微调,以提高在该任务上的性能和效果。
3、语言大模型的发展史
语言大模型(LLM,Large Language Model)
4、大模型大在哪?
1、大参数量
以B(十亿)量级为单位。
2、大数据量
以数百B,甚至以T为单位。
3、大资源量
以成百上千张A100进行训练起步。
4、大领域量
在广泛的领域均表现出色,不局限于某一特定领域。
5、大模型的能力
6、大模型带来的AI新范式
过去小模型时代,不同任务大炼不同的模型,存在场景碎片化、难以快速泛化、落地成本高、周期长、盈利难的问题。
新一代通用人工智能正在从“大炼模型”向“炼大模型”演进,但炼大模型的成本极其高昂,成为少数人的游戏。
预训练基础大模型,通过微调适配多种任务,甚至无需微调,直接通过prompt激发大模型能力,成为新一代技术范式。
7、大模型的核心架构
详见另一篇文章以ChatGPT为例解析大模型背后的技术