人工智能大模型是什么?它和我们通常讲的机器学习、深度学习有什么关系?它有什么能力?它在高能物理可能有哪些方面的应用?今天我们浅浅讨论一下这些问题。
一
溯源:从人工智能到机器学习、深度学习和大模型
1 曲折发展的人工智能
人工智能(AI)是一个模拟、延伸和扩展人的智能的理论、方法、技术及应用的技术科学,其本质是对人的意识和思维的模拟。为了实现这一目标,20 世纪50 年代人工智能诞生之初,就出现了两种不同的思路。一种认为人类思维的很大一部分是按照推理和猜想规则对“词”进行操作所组成的,因此提出了基于知识与经验的推理模型,即知识驱动的符号主义人工智能;另一种认为感官的刺激不存储在记忆中,而是在神经网络中建立起“刺激到响应”的连接,通过这个连接保证智能行为的产生,即数据驱动的连接主义人工智能。两种思路分别于1955 年和1956 年被提出,当时人们觉得人工智能会在20 年内改变世界,所有的工作将会被人工智能颠覆,人工智能迎来第一次“春天”。然而1973 年《莱特希尔报告》明确指出当时的人工智能的任何部分都没有达到人们想象的水平,第一次“春天”随之结束。
1980 年卡内基梅隆大学采用“知识库+推理机”的组合为数字设备公司设计了一套名为XCON的专家系统,取得了巨大成功,符号主义人工智能热度达到巅峰,人工智能迎来第二次“春天”,然而7 年之后苹果和IBM 生产的台式机性能超过计算机专家系统,人工智能再次陷入低谷。
困难时期,依旧有科学家坚持研究,研究重心逐步从符号主义转移到连接主义上,目前当代人工智能的重要技术如卷积神经网络、深度学习模型等都是这一时期的成果。2011 年IBM 的人工智能程序“沃森”参加智能问答战胜2 位世界冠军,人工智能逐步迎来第三次“春天”。2013 年,深度学习在语音和视觉识别任务上取得重大突破;2016 年,DeepMind 的人工智能围棋程序AlphaGo 战胜世界冠军李世石;2020 年AlphaFold 和2022 年ChatGPT的出现持续将人工智能的浪潮推高。目前我们所讲的当代人工智能主要是基于连接主义的数据驱动的深度学习算法。
图1 人工智能的三次浪潮
2 从机器学习和深度学习
机器学习既包含符号推理又包含连接主义,它强调让机器自动“学习”,是人工智能的具体实现方法。经典的机器学习算法包括K近邻、线性回归、朴素贝叶斯、决策树与随机森林、支持向量机和人工神经网络等,这些经典的方法在20 世纪90 年代就已经在高能物理领域逐步被引入和推广,时至今日仍然发挥着重要作用。
其中,人工神经网络是受大脑神经元中突触、轴突等结构启发而设计的计算模型。神经网络架构在不断发展,最初是把全部神经元逐层连接起来的全连接神经网络,但它容易过拟合且推理速度慢,后来逐步发展出能进行局部连接的卷积神经网络,卷积时只有部分神经元被激活从而减少计算量;卷积神经网络不能处理时间序列数据,后来发展出了能记忆上个时刻状态的循环神经网络;另外,为了处理包含复杂拓扑关系的图数据,发展出了能处理任意尺寸和拓扑逻辑结构的图神经网络;神经网络训练需要用人工标注的真值(输入数据所对应的输出)来促使网络学习,为了省去耗时耗力的标注过程,发展出了无需真值的自监督学习对抗生成式神经网络;对抗神经网络训练不容易收敛,后来发展出了基于扩散原理的生成式模型Diffusion Model。
深层的神经网络容易梯度爆炸或消失从而训练失败,2015 年残差神经网络通过在不同的层和神经元间添加信息传递捷径,有效地解决了该问题,使得更深的神经网络能被训练,现在的深度神经网络几乎都包含残差结构。基于深度神经网络的机器学习方法被称为深度学习,人工智能的第三次“春天”是以深度学习为代表的技术革命。
3 大模型
大模型与深度学习一脉相承,它基于自注意网络Transformer。2017 年Tran