语音识别 计算机视觉,深度学习的“深度”有什么意义

到底什么是深度学习?

它是涵盖了建立和训练神经网络的特殊方法的一个术语。神经网络最早在上世纪五十年代被提出,就像核聚变一样,他们曾是很有前途但很不可思议的实验室想法,迟迟未能在实际中应用。我会在稍后章节详细介绍神经网络是如何工作的,现在你可以把它当作一个作出决策的黑盒子。它们以一个数组作为输入(数组可以代表像素,音频微波,或者单词),在这个数组上运行一系列的函数,输出一个或多个数字。输出结果一般是对你试图从输入中得出的一些特性的预测,例如一张图片上画的是不是一只猫。

在黑盒子里运行的功能是由神经网络的内存控制的,权重数组负责决定如何将输入数据进行组合和重组来生成结果。像猫检测这样的实际问题,在处理时需要非常复杂的功能,也就是说它的这些权重数组会非常大。一个最近的计算机视觉网络问题,其权重数组包含大约6千万的数据。使用神经网络的一个最大的障碍是如何给这些巨大的数组赋值,才能很好的将输入信号转换成输出的预测结果。

训练

研究人员一直致力于训练神经网络,主要原因是神经网络理论上是可教的。在小规模的问题上,根据一系列的样本输入和期望输出,通过机械加工,让权重从一开始的随机数逐步变成可以提供更精准的预测的数字,是一个非常简单的过程。问题的关键是如何在更复杂的问题上做好这件事,比如语音识别或计算机视觉这些权重数量巨大的问题。

62d8b4f186e897a16c56b6eb4d05ad21.png

8cd8eabd9be03b0491b1644bbaa538da.png

这是在2012 Imagenet Paper会议引发神经网络复兴以来的一个真正突破。Alex Krizhevsky,Ilya Sutskever 和Geoff Hinton将很多不同的加速学习的程序汇集在一起,包括卷积网络(convolutional networks),巧妙运用GPU,和一些新的数学计算技巧比如如ReLU和dropout,结果显示,他们可以在几周内训练出一个非常复杂的网络,并且这个网络在计算机视觉上可以达到与以往很出色的传统方法几乎一样的效果。

这并不是一个单独的或偶然的事件,类似的方法已经在自然语言处理和语音识别上得到了很成功的应用。这就是深度学习的核心--这种新技术让我们可以搭建和训练神经网络来解决以前无法解决的问题。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值