古希腊时期,人类幻想着创造能自主思考的机器。当人类第一次构思可编程计算机时,就已经在思考计算机能否变得智能。如今,人工智能已经成为了具有众多实际应用和活跃研究课题的领域,正蓬勃发展。
人工智能的真正挑战在于解决那些对于人来说很容易执行,但很难形式化描述的任务,比如自然语言的处理或者人脸的识别。对于这些问题,人类可以轻而易举解决。为了让计算机解决这类问题,这本书讨论了一种解决方案:深度学习。
起初人类力求将关于世界的知识用形式化语言硬编码,让计算机通过逻辑规则理解这些声明,这种方法被称为人工智能的知识库方法。结果并未取得成功。这表明AI需要具备自己获取知识的能力,从原始数据中提取模式。这种能力被称为机器学习。机器学习可以让计算机做出看似主观的决策,典型的算法有逻辑回归,朴素贝叶斯等。
这些简单的机器学习算法很大程度上依赖于给定数据的表示。就像人类较容易地用阿拉伯数字进行计算,而用罗马数字计算就比较耗时。书中还给了一个可视化的例子。
对于图中的离散点,在极坐标下可以用一条直线将它们分类,而在直角坐标下办不到。
人工智能在处理数据时要选取合适的特征集,例如通过声道的大小判断说话者是男性或女性。但是对于复杂任务来说,人们并不知道应该提取哪些特征。解决这一问题的途径之一是表示学习,用机器学习发掘表示本身。表示学习算法的典型例子是自编码器。
设计特征或设计用于学习特征的算法时,我们的目标是分离出能解释观察数据的变差因素。在实际中,困难在于多个变差因素的同时影响,从原始数据中提取如此高层次,抽象的特征是非常困难的,这需要接近人类水平的理解来辨识。表示学习并没有很大帮助。
深度学习旨在通过其他较简单的表示来表达复杂表示,解决表示学习中的核心问题。
输入展示在可见层,它包含了我们能观察到的变量。然后是提取出来的越来越多抽象特征的隐藏层,它们的值未在数据中给出。图中, 可见层为输入的像素,第一隐藏层是通过比较周围像素亮度获得的关于物体边缘的信息,第二隐藏层是在边缘的基础上获得的关于角和轮廓的信息,第三隐藏层是关于物体的某一部分的信息,最后输出了物体的种类。从这样的过程上来看,深度学习做决策的过程有点类似于人类的认知过程,是一种循序渐进的过程,也印证了用简单表示来表达复杂表示的理念。
深度学习的典型例子是多层感知机,也叫前馈深度网络。是一个将一组输入值映射到输出值的数学函数,由许多较简单的函数复合而成。每一次函数的复合就是内层函数为外层函数提供了新的表示。
目前主要有两种度量模型深度的方式。第一种是基于模型执行的顺序指令的数目,将最长路径视为模型深度。第二种是将描述概念彼此如何关联的图的深度视为模型深度。
深度学习、表示学习、机器学习、人工智能的关系如下:
AI系统的不同部分的工作模式:
深度学习的历史趋势
神经网络的众多名称和历史变迁
20世纪40年代到60年代:控制论
20世纪80年代到90年代:联结主义
2006年后以深度学习之名复兴
谷歌图书短语出现频次:
早期的学习算法旨在模拟生物学习的计算模型,以人工神经网络之名而淡去。当时的深度学习模型被认为是受生物大脑启发而设计出来的系统。一些机器学习的神经网络有时也被用来理解大脑功能。如今神经科学在深度学习研究中的作用被削弱,因为我们没有足够的关于大脑的信息来作为指导。
20世纪80年代爆发了联结主义或并行分布处理的潮流。中心思想是当网络将大量简单的计算单元连接在一起时可以实现 智能行为。这种见解同样适用于生物神经系统中的神经元,因为它和计算模型中隐 藏单元起着类似的作用。在联结主义时期形成的几个关键概念在今天的深度学习中仍然很重要,例如分布式表示,长短期记忆等。
与日剧增的数据量
深度学习模型的训练需要依靠数据集进行,也就是让模型来拟合函数的学习数据。得益于社会的日益数字化,数据集的大小随着时间的推移显著增加。
与日俱增的模型规模
现在神经网络非常成功的另一个重要原因是我们现在拥有的计算资源可以运行更大的模型。几十年来,我们的机器学习模型中每个神经元的连接数量已经与哺乳动物的大脑在同一数量级上。但从神经元总数来看,神经网络还是很小的。保持现在每2.4年扩大一倍的增长速度,要到21世纪50年代,人工神经网络才能具备与人脑相同数量级的神经元。
与日俱增的精度、复杂度和对现实世界的冲击
20世纪80年代以来,深度学习提供的精确识别和预测的能力一直在提高,被广泛地应用于实际问题,如语音识别,行人检测,图像分割等。
总之,深度学习是机器学习的一种方法。在过去几十年的发展中,它大量借鉴 了我们关于人脑、统计学和应用数学的知识。近年来,得益于更强大的计算机、更 大的数据集和能够训练更深网络的技术,深度学习的普及性和实用性都有了极大的 发展。未来几年充满了进一步提高深度学习并将它带到新领域的挑战和机遇。