神经网络是如何工作的？ | 京东云技术团队

原创

于 2023-12-12 11:58:59 发布 · 1.5k 阅读

25 ·

CC 4.0 BY-SA版权

文章标签：

#神经网络 #京东云 #人工智能

作为一名程序员，我们习惯于去了解所使用工具、中间件的底层原理，本文则旨在帮助大家了解AI模型的底层机制，让大家在学习或应用各种大模型时更加得心应手，更加适合没有AI基础的小伙伴们。

一、GPT与神经网络的关系

GPT想必大家已经耳熟能详，当我们与它进行对话时，通常只需关注自己问出的问题（输入）以及GPT给出的答案（输出），对于输出内容是如何产生的，我们一无所知，它就像一个神秘的黑盒子。

GPT是一种基于神经网络的自然语言处理（NLP）模型，使用大量数据输入神经网络对模型进行训练，直到模型的输出在一定程度上符合我们的预期，训练成熟的模型就可以接收用户的输入，并针对输入中的关键信息给出经过“思考”后的答案。想要弄明白GPT究竟是如何“思考”的，或许我们可以从神经网络出发。

二、什么是神经网络

那么，神经网络到底是什么呢？或者说，为什么是神经网络？

高中的生物学告诉我们，人类的神经系统由数以亿计的神经元连接而成，它们是生物学上的细胞，有细胞体、树突、轴突等主要结构，不同神经元之间的树突与轴突通过突触与其他神经元相互连接，形成复杂的人脑神经网络。

人工智能为了使机器获得接近人类的智力，尝试效仿人脑的思考过程，创造出了一种模仿人脑神经元之间相互连接的计算模型——神经网络。它由多层神经元组成，每个神经元接收输入并产生相应的输出。根据上述定义，图1中黑盒子的内部结构已初具轮廓，下图中的每个圆圈都代表一个神经元，神经元具有计算能力，可以将计算出来的结果传递到下一个神经元。

在生物学中，大脑的结构越简单，智力也就越低；相应地，神经系统越复杂，能处理的问题越多，智力也就越高。人工神经网络也是如此，越复杂的网络结构计算能力越强大，这也是为什么发展出了深度神经网络。之所以被称为"深度"，是因为它具有多个隐藏层（即上图中纵向神经元的层数），相对于传统的浅层神经网络，深度神经网络具有更多的层级结构。

训练深度神经网络的过程就叫做深度学习。构建好深度神经网络之后，我们只需要将训练数据输入到神经网络中，它就会自发地学习数据中的特征。比如说我们想要训练一个深度神经网络来识别猫，只需要将大量不同种类、不同姿势、不同外观的猫的图片输入到神经网络中让它学习。训练成功后，我们将一张任意的图片输入到神经