LSTM算法原理简介及Tutorial
一、背景
LSTM(Long Short-Term Memory)算法作为深度学习方法的一种,在介绍LSTM算法之前,有必要介绍一下深度学习(Deep Learning)的一些基本背景。
目前在机器学习领域,最大的热点毫无疑问是深度学习,从谷歌大脑(Google Brain)的猫脸识别[1],到ImageNet比赛中深度卷积神经网络的获胜[2],再到Alphago大胜李世石[3],深度学习受到媒体、学者以及相关研究人员越来越多的热捧。这背后的原因无非是深度学习方法的效果确实超越了传统机器学习方法许多。从2012年Geoffrey E. Hinton的团队在ImageNet比赛(图像识别中规模最大影响最大的比赛之一)中使用深度学习方法获胜[4]之后,关于深度学习的研究就呈井喷之势;在2012年以前,该比赛结果的准确率一直处于缓慢提升的状态,这一年突然有质的飞越,而从此之后深度学习方法也成为了ImageNet比赛中的不二选择。同时,深度学习的影响却不仅局限于图像识别比赛,也深刻影响了学术界和工业界,顶级的学术会议中关于深度学习的研究越来越多,如CVPR、ICML等等,而工业级也为深度学习立下了汗马功劳,贡献了越来越多的计算支持或者框架,如Nivdia的cuda、cuDnn,Google的tensorflow,Facebook的torch和微软的DMTK等等。
深度学习技术发展的背后是广大研究人员的付出,目前该领域内最著名的研究人员莫过于Yoshua Bengio,Geoffrey E. Hinton,Yann LeCun以及Andrew Ng。最近Yoshua Bengio等出版了《Deep Learning》[5]一书,其中对深度学习的历史发展以及该领域内的主要技术做了很系统的论述,其关于深度学习历史发展趋势的总结非常精辟,书中总结的深度学习历史发展趋势的几个关键点分别:
- a)深度学习本身具有丰富悠久的历史,但是从不同的角度出发有很多不同得名,所以历史上其流行有过衰减趋势。
- b)随着可以使用的训练数据量逐渐增加,深度学习的应用空间必将越来越大。
- c)随着计算机硬件和深度学习软件基础架构的改善,深度学习模型的规模必将越来越大。
- d)随着时间的推移,深度学习解决复杂应用的精度必将越来越高。
而深度学习的历史大体可以分为三个阶段。一是在20世纪40年代至60年代,当时深度学习被称为控制论;二是在上世纪80年代至90年代,此期间深度学习被誉为联结学习;三是从2006年开始才以深度学习这个名字开始复苏(起点是2006年,Geoffrey Hinton发现深度置信网可以通过逐层贪心预训练的策略有效地训练)。总而言之,深度学习作为机器学习的一种方法,在过去几十年中有了长足的发展。随着基础计算架构性能的提升,更大的数据集和更好的优化训练技术,可以预见深