Day3 用恶魔来讲解神经网络

Day3 用恶魔来讲解神经网络

Day2中概述了神经网络的各层(输入层、隐藏层、输出层),但没有具体介绍其中最难的隐藏层。这是因为隐藏层肩负着特征提取 feature extraction 的重要职责,需要很长的篇幅来介绍。Day3中以“恶魔组织”为例,从隐藏层切入,解释整个神经网络的“工作”机制。

用恶魔来讲解神经网络的结构

恶魔之间的“交情”

如Day2所述,神经网络是将神经单元部署成网络状而形成的。然而,将神经单元胡乱地连接起来并不能得到有用的神经网络,因此需要设计者的预估,这种预估对于隐藏层是特别重要的。因为支撑整个神经网络工作的就是这个隐藏层。下面让我们利用上一节用过的例题切入隐藏层的话题。

例题:建立一个神经网络,用来识别通过4×3像素的图像读取的手写数字0和1。学习数据是64张图像,其中像素是单色二值。
  • 难点:即使是区区一个4×3 像素的二值图像,所读入的手写数字0 和1 的像素模式也是多种多样的。例如,下列图像可以认为是读入了手写数字0。

在这里插入图片描述

  • 思路:由神经单元之间的关系强度给出答案

    • 假设有一个如下图所示的恶魔组织,隐藏层住着3 个隐藏恶魔A、B、C,输出层住着2 个输出恶魔0 和1。输入层有12 个手下为隐藏恶魔A、B、C 服务。

    注:这里将生物学中的特征提取细胞的工作抽象化为3 个恶魔A、B、C。

    在这里插入图片描述

    • 最下层(输入层)的12 个手下分别住在4×3 像素图像的各个像素上,其工作是如果像素信号为OFF(值为0)就处于休眠状态;如果像素信号为ON(值为1)则变得兴奋,并将兴奋度信息传递给他们的主人隐藏恶魔A、B、C。

    • 隐藏恶魔A、B、C 有不同的“喜好”,根据神经网络设计者的预设,他们分别喜欢下图所示的模式A、模式B、模式C 的图案。

      在这里插入图片描述

    • 住在最上层的2个输出恶魔也是从住在下层的3 个隐藏恶魔那里得到兴奋度信息。与隐藏恶魔一样,他们将得到的兴奋度信息进行整合,根据其值的大小,自己也变兴奋。然后,这些输出恶魔的兴奋度就成为整个恶魔组织的意向。如果输出恶魔0 的兴奋度比输出恶魔1的兴奋度大,神经网络就判定图像的数字为0,反之则判定为1。

    在这里插入图片描述

  • 可见,恶魔的世界里也存在着人际关系,不,“魔际关系”。

    • 隐藏恶魔A、B、C 对模式有着各自的偏好,与12 个手下有不同的交情。隐藏恶魔A的偏好是之前的模式A,因此与④、⑦性情相投。因为模式A的4号像素与7号像素是ON,所以理所当然地与对应的看守人④、⑦性情相投。

    在这里插入图片描述

    • 同样地,手下⑤、⑧与隐藏恶魔B,手下⑥、⑨与隐藏恶魔C 性情相投,因此他们之间传递兴奋度的管道也变粗了(下图)。

    在这里插入图片描述

    • 住在隐藏层的隐藏恶魔A、B、C 与住在上层的2 个输出恶魔也有着人际关系。由于某种羁绊,输出恶魔0 与隐藏恶魔A、C 性情相投,而输出恶魔1 与隐藏恶魔B 性情相投。

在这里插入图片描述

以上就是这个恶魔组织的所有“魔际关系”。


那么,让这个恶魔组织读入下面这个手写数字“0”

在这里插入图片描述

  • 于是,作为像素看守人的手下④、⑦和手下⑥、⑨看到这个图像就变得非常兴奋了(下图)

在这里插入图片描述

  • 这时,兴奋的手下④、⑦向性情相投的隐藏恶魔A 传递了较强的兴奋度信息,兴奋的手下⑥、⑨也向性情相投的隐藏恶魔C 传递了较强的兴奋度信息。相对地,几乎没有手下向隐藏恶魔B 传递兴奋度信息(下图)。

在这里插入图片描述

  • 接收了来自手下的兴奋度信息的隐藏恶魔们会怎样呢?接收了较强的兴奋度信息的隐藏恶魔A 和隐藏恶魔C 自然也变兴奋了。另一方面,隐藏恶魔B 变得怎样呢?因为几乎没有从手下接收到兴奋度信息,所以一直保持冷静。

在这里插入图片描述

  • 住在最上层的输出恶魔变得怎样了呢?输出恶魔0 由于与兴奋的隐藏恶魔A、C 关系亲密,从而获得了较强的兴奋度信息,所以自己也兴奋起来了。相对地,输出恶魔1 与隐藏恶魔A、C 关系疏远,而与之关系亲密的隐藏恶魔B 一直保持冷静,所以输出恶魔1 没有获得兴奋度信息,因此也保持冷静。
    在这里插入图片描述

  • 这样一来,读取手写数字0 的图像后,根据恶魔之间的连锁关系,最终得到了“输出恶魔0 兴奋,输出恶魔1 冷静”的结果。根据前文中的“如果输出恶魔0 的兴奋度比输出恶魔1 的兴奋度大,神经网络就判断图像的数字为0”,恶魔的网络推导出了0 这个解答。

在这里插入图片描述


恶魔的心的偏置

在这个恶魔组织中,下层的兴奋度会或多或少地传递到上层。但是,除了具有亲密关系的各层之间传递的兴奋度信息以外,还遗漏了少量信息,就是“噪声”。如果这些噪声迷住了恶魔的心,就会导致无法正确地传递兴奋度信息。因此,这就需要减少噪声的功能。对于恶魔组织的情形,我们就将这个功能称为“心的偏置”吧!具体来说,将偏置放在恶魔的心中,以忽略少量的噪声。这个“心的偏置”是各个恶魔固有的值(也就是个性)。


恶魔网络工作一览

像上面那样,恶魔组织实现了手写数字的模式识别。我们应该关注到,是恶魔之间的关系(也就是交情)和各个恶魔的个性(也就是心的偏置)协力合作推导出了答案。也就是说,网络作为一个整体做出了判断。

  • 在下图中示范一下在读取数字1 的图像时,恶魔组织得出1这个解答的全过程。

在这里插入图片描述


将恶魔的工作翻译为神经网络的语言

恶魔之间的“交情”表示权重

上一节考察了恶魔组织识别手写数字0、1 的结构。将这个组织替换为神经网络,我们就能理解神经单元发挥良好的团队精神进行模式识别的结构。

  • 首先,将恶魔看作神经单元。隐藏层住着3 个隐藏恶魔A、B、C,可以解释为隐藏层有3 个神经单元A、B、C。输出层住着2 个输出恶魔0、1,可以解释为输出层有2 个神经单元0、1。此外,输入层住着12 个恶魔的手下,可以解释为输入层有12 个神经单元(下图)。
    在这里插入图片描述

  • 接下来,将恶魔的“交情”看作神经单元的权重。隐藏恶魔A 与手下④、⑦性情相投,这样的关系可以认为是从输入层神经单元④、⑦指向隐藏层神经单元A 的箭头的权重较大。同样地,隐藏恶魔B 与手下⑤、⑧性情相投,可以认为是从输入层神经单元⑤、⑧指向隐藏层神经单元B的箭头的权重较大。隐藏恶魔C 与手下⑥、⑨性情相投,可以认为是从输入层神经单元⑥、⑨指向隐藏层神经单元C 的箭头的权重较大。

在这里插入图片描述

关于权重,请参考Day1内容。

  • 隐藏恶魔A、C 与上层的输出恶魔0 性情相投,这个关系表示从隐藏层神经单元A、C 指向输出层神经单元0 的箭头的权重较大。同样地,隐藏恶魔B 与输出恶魔1 性情相投,这个关系表示从隐藏层神经单元B 指向输出层神经单元1 的箭头的权重较大。

在这里插入图片描述

  • 这样解释的话,神经网络读入手写数字0 时,神经单元A 和C 的输出值较大,输出层神经单元0 的输出值较大。于是,根据神经网络整体的关系,最终识别出数字0。

在这里插入图片描述

  • 在像这个神经网络那样前一层与下一层全连接的情况下,在输入0的图像时,原本不希望做出反应的隐藏层神经单元B 以及输出层神经单元1 也有信号传递,因此需要禁止这样的信号并使信号变清晰,这样的功能就是偏置,在恶魔组织中表现为“心的偏置”。

如上所述,权重和偏置的协力合作使得图像识别成为可能。这就是“由神经网络中的关系得出答案”的思想。

但不要认为这样就万事大吉了。即使将恶魔的活动转换为了神经网络,也无法保证可以求出能够实现恶魔的工作的权重和偏置。而如果能够实际建立基于这个想法的神经网络,并能够充分地解释所给出的数据,就能够验证以上话题的合理性。这需要数学计算,必须将语言描述转换为数学式。为此,我们会在后续的Day里开始进行实际的计算。


恶魔的人数如何确定

  • 住在输出层的输出恶魔的人数是2 人。为了判断图像中的数字是0还是1,2 人是合适的。

  • 住在输入层的牛马恶魔手下人数为12人,因为输入图像是3x4的。

  • 住在隐藏层的隐藏恶魔的人数是3 人。为什么是3 人呢?如本节开头所讲的那样,这是由于存在某种预估,如下图所示。
    在这里插入图片描述

    • 上一节中为隐藏恶魔A、B、C 设定分别喜欢模式A、B、C 的特征,也是出于这个原因。
    • 以上是在隐藏层部署3 个神经单元的理由。通过让这个神经网络实际读取图像数据并得出令人信服的结论,可以确认这个预估的正确性。

“恶魔的交情”(权重)如何确定

在前面,我们利用恶魔这个角色,学些了识别输入图像的机制。具体来说,就是根据恶魔组织中的关系来判断。不过,之前的讲解中事先假定了权重的大小,也就是假定了各层恶魔之间的人际关系。那么,这个权重的大小(恶魔的关系)是如何确定的呢?神经网络中比较重要的一点就是利用网络自学习算法来确定权重大小。

从数学角度看神经网络的学习

  • 神经网络的参数确定方法分为有监督学习和无监督学习
  • 有监督学习是指,为了确定神经网络的权重和偏置,事先给予数据,这些数据称为学习数据
  • 根据给定的学习数据确定权重和偏置,称为学习。

学习数据也称为训练数据。

神经网络是怎样学习的

  1. 计算神经网络得出的预测值与正解的误差
  2. 确定使得误差总和达到最小的权重和偏置

这在数学上称为模型的最优化(下图)

在这里插入图片描述

  • 关于预测值与正解的误差总和,有各种各样的定义。
  • 上面采用的是最古典的定义:针对全部学习数据,计算预测值与正解的误差的平方(称为平方误差),然后再相加。这个误差的总和称为代价函数(cost function),用符号 C T C_T CT表示(T 是Total的首字母)。
  • 利用平方误差确定参数的方法在数学上称为最小二乘法,它在统计学中是回归分析的常规手段。

需要注意的是,神经网络的权重是允许出现负数的,但在用生物学进行类比时不会出现负数,也难以将负数作为神经传递物质的量。可以看出,神经网络从生物那里得到启发,又飞跃到了与生物世界不同的另一个世界。


深度学习的神经网络与生物神经网络对比

请想象一下生物看东西时的情形。可以认为:

  • 输入层神经单元相当于视细胞
  • 隐藏层神经单元相当于视神经细胞
  • 输出层神经单元相当于负责判断的大脑神经细胞群

实际上,1958 年美国生理学家大卫· 休伯尔(David Hunter Hubel)和托斯坦· 威泽尔(Torsten Wiesel)发现存在这种细胞,这种细胞被命名为特征提取细胞。对某种模式做出强烈反应的视神经细胞有助于动物的模式识别。想到本节模拟的“恶魔”在大脑中实际存在,这真是非常有意思的事情。


人工智能研究中的几次热潮

人工智能的研究大约是从20 世纪50 年代开始的,其发展史与计算机的发展史有所重合,可以划分为以下3 次热潮。

世代年代关键主要应用领域
第1代20世纪50年代 ~ 60年代逻辑为主智力游戏等
第2代20世纪80年代知识为主机器人、机器翻译
第3代2010年至今数据为主模式识别、语音识别

或者

热潮次数背景标志事件关键技术主要应用领域特点
第一次热潮20世纪50年代,计算机科学起步,探索计算机模拟人类智能1956年达特茅斯会议提出“人工智能”概念符号主义、专家系统机器定理证明、专家系统理论基础建立,算法开发,随后进入低谷期
第二次热潮20世纪80年代至90年代,计算机硬件和算法发展语音识别技术从专家系统转向统计建模神经网络、机器学习语音识别、自然语言处理注重实际应用,技术融合,推动相关领域发展
第三次热潮(当前)21世纪以来,大数据、云计算技术兴起AlphaGo击败围棋世界冠军,BERT、GPT系列崛起深度学习、计算机视觉、自然语言处理、机器人技术自动驾驶、智能家居、医疗健康、金融服务、教育、娱乐等跨学科性,创新性,实践导向,数据驱动,伦理关注

在人工智能领域,奇点singularity被用来表示人工智能超过人类智能的时间点。据预测是2045 年,也有不少人预测这个时间点会更早到来。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值