近年来人工智能的高速发展离不开深度神经网络的应用,深度神经网络的发展是从大数据和硬件算力设备大规模发展之后才逐渐占据了人工智能的核心研究地位的,在此之前人工智能的研究都是以可解释性强、计算力小的统计学模型为主,但是以统计学为主的人工智能模型缺点非常明显,那就是大多数研究都是基于实验室级别的,由于不善于处理大量的非结构化数据,传统的统计学模型一直没有大规模的使用在实际的生产应用当中。
自从2006年,加拿大多伦多大学的Geoffrey Hinton等人提出了深度学习的概念,人工智能从此进入了新的时代,以仿生学为基础的深度学习模型和以往的统计学模型相比,最大的优势就是它可以大规模的处理现实世界中的各类数据,学习这些数据中的特征规律,从而能够掌握一些能够使用在现实生产中技能,这对于提高生产效率有着非常大的帮助。虽然深度学习模型也有其不可避免的缺点,比如需要大规模的数据,大型的算力资源,以及不可解释性等,但是和其带来的收益相比,这些都不是能够阻拦其发展的阻力。

深度学习的发展在2023年开始又进入了一个新的阶段,以ChatGPT、Sora等为代表的大模型进一步解放了生产力,提高了生产效率。对与数据资源和算力资源的需求也有了一个更高的要求,但是对比基础模型的发展,还是以深度学习为主的人工神经网络为主。人工神经网络的发展最早起源于20世纪40年代,当时心理学家Warren McCulloch和数学家Walter Pitts提出了神经元模型。这个模型基于生物学中的神经元工作原理,为后续神经网络的发展奠定了基础。
自此之后,心理学家F. Rosenblatt又提出了感知器网络的概念。感知器网络是一种二分类器,可以学习和识别简单的模式,但具有明显的局限性,例如无法学习异或等非线性模式。20世纪80年代,深度学习的概念逐渐受到关注。卷积神经网络(CNN)作为深度学习领域的重要分支之一,通过使用卷积操作来提取输入数据的多层特征,为神经网络在图像处理和视觉任务中的应用开辟了新的道路,从此深度学习逐渐走上了人工智能领域发展史上的重要阶段。

从人工神经网络最早起源于20世纪40年代的这个时间节点来看,它的发展已经有了八十多年的历史了,这也让业内研究者不禁考虑其存在的意义及其进化的合理性。从第一个感知机被发布出来之后,业内纷纷认为这就是最符合生物神经网络运行的人工神经网络,可以发现一个感知机有输入、有权重、有偏置、有汇总、有激活、有输出,这些都能够被一一对应到生物神经元的树突、细胞体、细胞核、轴突、突触等,而多个感知机结合后就可以合成一个神经网络,随着感知机的不断增加和层数的叠加,就成为了一个深度神经网络。

深度神经网络的层数可以根据实际需求增加到成千上万层,而参数根据实际需要也可以被增加到几千亿上万亿。这些模拟人类神经元的模型在数量各结构上早已超过了人类的极限,人类的中枢神经的神经元个数才不过2000亿个,而人类大脑的神经元更是只有900亿到1000亿个,反观现在的大模型动辄就是千亿大模型,而在表现力方面于人类相比,却无法放在同一层面,比如OpenAI的GPT-3参数是1750亿,这个数量早已超过了人类大脑的神经元个数。而Snowflake的Arctic模型,它的参数更是达到了恐怖的4800亿,即使是这么大参数的模型,还是没有将人工智能带入到AGI时代,更何况对如此巨大参数的模型训练和维护也是一项不小的成本开支。

大模型在带来高效生产力的同时,也带来了更大的成本开支,在这一块各大厂和研究机构也早已察觉,现在各大机构不仅一方面在稳步发展大模型,另一方面也在极力的研究小模型,或者对大模型保证效果的前提下进行参数瘦身,具体方法包括了模型剪枝、量化、低秩分解、算子优化、模型设计等,但是目前这些操作都是基于原始的感知机基础之上的操作,无论是对Transformer模型的改造,降低其随Token增长的二次方计算复杂度,还是新的MOE专家混合模型,以及重新被拿起来研究的RNN模型,底层都是多层感知机。

感知机在其被设计出来之后,对深度学习领域的发展就像是计算机领域的电子管一样重要,但是我们细究感知机的连接方式就会发现,其实感知机的连接方式与生物神经元的连接方式并不一样,首先感知机内部神经元之间的连接在网络被设计完之后就固定了,也就是说,在实际使用过程中,感知机内部的连接是不会发生变化的,这也意味着感知机模型一旦被设计好,其能力就已经被限制了,而反观生物神经元之间的连接则是靠外界的刺激而发生的连接,比如我们不思考问题的时候,大脑内部仅有少量的神经元发生着连接,但是当我们思考问题的时候,大脑内部的神经元就会发生大量的连接。

其次,标准感知机内部神经元的连接仅是层与层之间发生着连接,而同一层内部的神经元之间并没有连接,这并不是说不能这样设计,而是为了基于矩阵计算的要求,方便大规模的计算,深度学习模型在训练和推理过程中,基于GPU等硬件规则,模型内部都是进行着大量的矩阵运算,而矩阵运算的特点就是要遵循行列规则,标准的前馈神经网络通过矩阵乘法来进行计算,这是因为各层间的连接形成了一个清晰的层级结构,每一层的输出可以表示为一个向量或矩阵,而层间的权重也可以表示为矩阵,这样整个计算过程就可以简化为一系列的矩阵运算。如果同层之间发生了连接,高效并行计算就成了问题,这会极大的增加模型的计算复杂度。

那么有没有一个改造方法直接对感知机动手呢?使其能够更接近于生物神经元的连接方式,使其内部结构能够根据外界需求自适应的发生连接。近期,来自哥本哈根信息技术大学的研究团队提出了一种在智能体生命周期内能够实现可塑性和结构变化的机制 ——LNDP(Lifelong Neural Developmental programs,终身神经发育计划)。该机制通过执行局部计算来实现,依赖于人工神经网络中每个神经元的局部活动和环境的全局奖励函数。

最低0.47元/天 解锁文章

被折叠的 条评论
为什么被折叠?



