一、《深度学习、优化与识别》
1. 机器学习与深度学习的根本性差别是追求的理念不同
机器学习在中小规模的数据上追求精度与效率,所以花费大量的时间研究数据的先验特性,并把它加到特征学习中学习得到分布式判别性特征,模型可以拆分为特征学习和分类器/回归器设计;而深度学习的理念是在中大规模数据集上追求简单、新颖和通用,放弃精确,不强调数据的先验特性,模型讲究统一的端到端的设计方式。
2. 深度循环和递归神经网络典型应用
自然语言领域:情感分析、机器翻译和问答系统。
深度循环和递归神经网络:用向量表示各种级别的元素;传统方法:很精细的方法;
深度学习:用向量表示单词、短语、逻辑表达式和句子,然后通过搭建多层(引入定向循环)神经网络去自主学习。
深度循环神经网络:(自然语言领域)语句合法性检查、词向量表达、词性标注。常用LSTM
3.深度学习技术主要是数据 驱动的
即对于一个特定任务来说,只要增加训练数据的规模,深度学习模型的表现就可以提高。
二、
1. Tian F, Gao B, Cui Q, et al. Learningdeep representations for graph clustering[J]. Inproceedings, 2015.
近来深入学习已经成功地应用于诸如语音识别和图像分类之类的应用中。文中探讨了在图像聚类中应用深度学习的可能性。提出了一种简单的方法,首先通过堆栈自动编码器学习原始图形的非线性向量,然后在这些向量上运行k-means算法获得聚类结果。文章表明,由于自动编码器和光谱聚类在实际优化方面的相似性,这种简单的方法具有坚实的理论基础。然后,证明所提出的方法比频谱聚类更有效率和灵活性。第一,自动编码器的编码复杂度要比光谱聚类低得多:前者可以是稀疏图中的节点数的整数倍,而后者由于特征值分解而是超二次方倍。第二,当施加额外的稀疏约束时,可以只是使用深入学习文献中发现的稀疏自动编码器;然而,实现稀疏光谱方法是不直接的。在各种图形数据集上实验结果表明,文中所提出的方法显着优于常规光谱聚类,这清楚地表明了深度学习在图形聚类中的有效性。
2.2017KDD
关于深度学习多关注有算法本身的改进。还有一些实际应用。
[1] Ryan Spring & Anshumali Shrivastava(Rice University);Scalable and Sustainable Deep Learning via Randomized Hashing
为了从复杂的数据集中学习目前的深入学习架构越来越大,。这些架构需要巨大的矩阵乘法运算来训练数百万个参数。相反,还有另一个增长趋势是深入学习低功耗嵌入式设备。与深度网络的训练和测试相关的矩阵运算从计算和能源的角度来看是非常昂贵的。文中提出一种新颖的基于散列的技术,大大减少训练和测试深层网络所需的计算量。文中的方法结合了最近的两个想法,即自适应压缩和最大内部搜索(MIPS)的随机哈希,以有效地选择具有最高激活的节点。文中的新的深度学习算法通过显着减少(稀疏)节点来减少正向和反向传播步骤的总体计算成本。因此,文中的算法仅使用总乘法的5%,同时保持原始模型的平均精度的1%。所提出的基于散列的反向传播的独特属性更新总是稀疏的。由于稀疏梯度更新,文中的算法非常适合异步并行训练,随着核心数量的增加,导致近似线性加速。通过对几个实际数据集进行严格的实验评估,证明了文中提出的算法的可扩展性和可持续性(能源效率)。
[2] Inci Baytas (Michigan StateUniversity);Cao Xiao (IBM T. J. Watson Research Center);Xi Zhang (CornellUniversity);Fei Wang (Cornell University);Anil Jain (Michigan StateUniversity);Jiayu Zhou (Michigan State University);Patient Subtyping viaTime-Aware LSTM Networks
在各种疾病的研究中,患者之间的异质性通常导致不同的进展模式,可能需要不同类型的治疗干预。因此,重要的是研究患者亚型,将患者分组为疾病特征亚型。由于信息异质性和时间动态,复杂的患者数据的分型是具有挑战性的。长期记忆(LSTM)已经在许多领域成功应用于处理顺序数据,并且最近用于分析纵向病人记录。 LSTM单元被设计为处理在序列的连续元素之间具有恒定时间间隔的数据。鉴于患者记录中的连续元件之间的时间间隔可能从数天到数月,传统LSTM的设计可能导致次优性能。在本文中,文中提出了一种称为时间感知LSTM(T-LSTM)的新型LSTM单元来处理纵向病人记录中的不规则时间间隔。文中学习细胞存储器的子空间分解,使得时间衰减可以根据经过的时间来折扣存储器内容。文中提出一种利用自动编码器中提出的T-LSTM来学习用于病人顺序记录的强大的单一表示的患者亚型模型,然后将其用于将患者聚集成临床亚型。合成和现实世界数据集的实验表明,提出的T-LSTM架构捕获了具有时间不规则性的序列中的基础结构。
[3] Adrian Albert (MIT & SLAC);MartaGonzalez (MIT); Using convolutional networks and satellite imagery to identifypatterns in urban environments at a large scale
城市规划应用(能源审计,投资等)需要了解建筑基础设施及其环境,即低层次,物理特征(植被数量,建筑面积和几何等)以及更高层次概念如土地利用类(其编码对社会经济最终用途的专家理解)。这种数据是昂贵和劳动密集型的,这限制了其可用性(特别是在发展中国家)。文中使用大规模卫星图像数据和基于深卷积神经网络的最先进的计算机视觉技术来分析城市社区的土地利用模式。对于监督,鉴于遥感数据的标准基准的可用性有限,文中获得了从开源调查中仔细抽样的地面实际土地利用类别标签,特别是城市地图集土地分类数据,每个 300美元的土地利用类别(欧洲城市)。文中使用这些数据来训练和比较最近在标准计算机视觉任务(图像分类和分割)上显示出良好性能的深层架构,包括地理空间数据。此外,文中表明,从城市环境的卫星图像中提取的深层次表示可以用于比较几个城市的社区。文中的数据集可供其他机器学习研究人员用于遥感应用。
3.
深度学习算法(如深度堆栈自动编码、RNN、CNN)解决的核心问题之一就是自动地将简单的特征组合成更加复杂的特征,并利用这些组合特征解决问题,使得最后一步权重学习变得更加简单且有效。它可以学习特征和任务之间的关联。