在过去十年中,机器学习在很多领域都取得了前所未有的进展,如图像识别,自动驾驶汽车、和玩复杂游戏如「GO」等。这些成就在很大程度上都是通过采用监督学习和强化学习两种范式中的一种来训练深度神经网络得以实现的。这两种范式都要求人为设定「训练信号」并将其传递给计算机。在监督学习的示例中,这些信号被视为「目标」(例如某个图像的正确标签);在强化学习中,它们是行为正确时获取的「奖励」(例如在 Atari 游戏中获得高分)。因此,机器学习的界限是由人类训练者所定义的。

  虽然一些科学家认为,拥有足够包容的训练体制,如使智能体具备完成各类任务的能力,就应该足以达到通用的智能水平,但其他人则认为真正的智能需要更多的独立学习策略。例如,回归到人类幼童如何学习的场景,她的祖母可能会坐在她身旁,耐心地举出什么是「鸭子」的例子(该行为像是监督学习中的指示信号),或者在她完成木版拼图时用掌声表示奖励(如同在强化学习中一样)。但是,幼儿在绝大多数时间里都是在天真地探索世界,通过好奇心、游戏和观察的方式来理解她周围的环境。无监督学习是一种旨在通过奖励智能体(即计算机程序)来创建自主智能以便在不考虑特定任务的情况下学习其观察到的数据的范式。换句话说,智能体是为了学习而学习。

  无监督学习的一个关键动机是,虽然传递给学习算法的数据拥有很丰富的内部结构(如图像、视频和文本),但用于训练的目标和奖励通常都非常稀疏(例如,标签「狗」指的是尤其多变的物种,标签「0」或「1」表示游戏中的「失败」或「成功」)。这表明算法学到的大部分内容必须包括对数据本身的理解,而不是将这种理解应用于特定任务。

  解码视觉元素大连专业妇科医院 http://www.dlfkyy.net/

  2012 年是深度学习的里程碑年,这一年,AlexNet (以其首席架构师 Alex Krizhnevsky 命名)席卷ImageNet 分类竞赛,其识别图像的能力被认为是前所未有的,而更令人瞩目的则是它的内部结构。当研究人员分析 AlexNet 时,发现它通过构建图像输入更复杂的内部表示来解释图像。在底层表示如纹理和边缘之类的低层特征,然后将它们组合在一起形成高级概念,如轮子和狗。

  这与我们的大脑处理信息的方式非常相似,在初级感官处理区域的简单边缘和纹理被聚合成复杂对象,如更高区域中的面部。因此,复杂场景的表示可以由视觉基元构建,这种方式大致类似于构成句子的单个词所带来的意义。即使没有明确的指导,AlexNet 的层级也已经发现了一个基本的视觉「词汇」来解决其任务。从某种意义上说,它已经学会了玩 Wittgenstein 所谓的「语言游戏」,该游戏会反复地将像素转换为标签。