分支注意力的文章

一、Highway networks

《Training Very Deep Networks》

非常懒,直接摘自金山词霸翻译

理论和经验证据表明,神经网络的深度是其成功的关键。然而,随着深度的增加,训练变得更加困难,而非常深的网络的训练仍然是一个开放的问题。在这里,我们介绍了一个新的架构,通过设计来克服这个问题。我们所谓的高速公路网络允许信息不受阻地穿过信息高速公路上的许多层。它们受到长短期记忆循环网络的启发,并使用自适应门控单元来调节信息流。即使有数百层,高速公路网络也可以通过简单的梯度下降来直接训练。这使得研究极其深入和高效的架构成为可能。

1.许多最近在监督机器学习方面的经验突破已经通过大型和深度神经网络实现。(我觉得这个意思是大型和深度神经网络已经实现了很多机器学习实现不了的东西?大概是这个意思吧)网络深度(连续计算层的数量)可能在这些成功中发挥了最重要的作用。例如,在短短几年内,1000类的ImageNet数据集上前5名的图像分类精度从∼84%的[1]增加到∼95%的[2,3]。关于实际机器学习问题的其他结果也强调了更深层次的网络[6]在准确性和/或性能方面的优越性。

事实上,深度网络可以比浅层网络更有效地表示某些函数类。这对于循环网来说可能是最明显的,这是其中最深的(深度网络中最深的)。(解释循环网的实际作用)例如,n位奇偶性问题原则上可以通过一个具有n个二进制输入单位、1个输出单元和一个单一但较大的隐藏层的大前馈网络来学习。但是对于任意n的自然解决方案是一个只有3个单位和5个权值的循环网,每次读取输入位串,每当观察到一个新的1[7]时,使一个循环隐藏单元翻转其状态。相关的观察结果适用于布尔电路[8,9]和现代神经网络[10,11,12]。

总结训练更深层次网络的方法,看不懂。)为了解决训练深度网络的困难,一些研究人员专注于开发更好的优化器(如[13,14,15])。设计良好的初始化策略,特别是对某些激活函数[16,17]的归一化方差保持初始化策略,已被广泛应用于训练中等深度的网络。其他类似的动机策略在初步实验[18,19]中显示出了有希望的结果。实验表明,基于局部竞争[20,21]的某些激活函数可能有助于训练更深层次的网络。层之间的跳过连接或跳过输出层的连接(错误被“注入”)长期以来一直在神经网络中使用,最近的明确目的是改善信息流[22,23,2,24]。最近的相关技术是基于使用软目标从浅教师网络帮助培训更深层次的学生网络在多个阶段[25],类似于神经历史压缩机序列,慢慢滴答的老师递归网是“蒸馏”成一个快速滴答的学生递归网通过迫使后者预测前[26]的隐藏单位。最后,深度网络可以进行分层训练,以帮助信用分配[26,27],但这种方法不如直接训练的吸引力。

        非常深的网络训练仍然面临着一些问题,尽管它们可能没有标准递归网络[28]中梯度消失的问题那么基本。在传统的前馈网络体系结构中,几种非线性变换的叠加通常会导致激活值和梯度的不良传播问题。因此,仍然很难调查非常深的网络对各种问题的好处。(讲非常深的网络的坏处)

        为了克服这个问题,我们从长短期记忆(LSTM)循环网络[29,30]中获得了灵感。我们建议修改非常深的前馈网络的体系结构,使信息跨层流变得更加容易。这是通过一个LSTM启发的自适应门控机制实现的,允许计算路径沿着信息可以流过许多层而不衰减。我们称这种路径为信息高速公路。它们产生了高速网络,而不是传统的“普通”网络。

        我们的主要贡献是表明,可以使用随机梯度下降(SGD)直接训练极深的高速公路网络,而平原网络则随着深度的增加而变得难以优化(第3.1节)。计算预算有限的深度网络(最近提到的两阶段训练程序[25])在转换为高速公路网络时,也可以在单个阶段直接进行训练。实验结果支持了高速公路网络的易于训练,表明高速公路网络也能很好地推广到未知数据。

2.高速公路网络

今天看了字节程序员的信息,看的我好难过啊

/(ㄒoㄒ)/~~

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值