Highway Networks

本文介绍了Highway Networks,一种解决深度神经网络训练难题的架构。通过条件单元(gate units)调节信息流,允许信息在深层网络中无障碍传递,从而能够训练包含数百层的网络。实验表明,Highway Networks在优化深度和性能上优于传统方法,且能直接对原始数据进行训练,无需额外的预训练步骤。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

Abstract

理论和经验表明神经网络的深度是至关重要的。但是训练深层次的网络优势非常困难的。我们设计了一种简化的架构来训练基于梯度的训练方式。我们将这种架构称为highway net,因为其允许信息跨越几层来进行信息传输。架构师通过条件单位,也就是gate unit进行调节网络中的信息流动。HighWay net能够训练非常深层次的神经网络。这些神经网络可以包含成千上百层可以包含各种各样的激活函数。

1Introduction

最近许多在监督学习中的图片都是应用的深度神经网络。网络的深度扮演了最重要的角色。

理论方面,总所周知,深度神经网络代表的特点函数,在分类领域带来了指数级增加的效率。正如Bengio et al 所认为的,在复杂任务中,深度神经网络能够提高计算和统计效率。

当然,训练神经网络不想简单的添加网络的操作一样简单。深度神经网络的优化已经被证明为相当困难的。这衍生出很多方面的研究,比如说,初始化策略,多阶段训练或者说,某些层的临时损失函数。


我们提出的创新的结构,可以优化任意网络深度。这是因为我们应用了闸门机制(gating mechanism )进行调节信息流。由于闸门机制的运用使,信息及时穿越多层也不会衰减。

在前期试验中,我们发现,highway net能够利用简单的随机梯度下降优化900层的网络。

对于100层的神经网络,我们与传统的神经网络归一化的初始化进行了比较。我的得知,highway net的优化与网络的深度独立,we传统的就很不一样。而且,相比于Romero
et al
 需要与训练,highway net可以直接对原始数据集进行训练而且能够得到相同的准确度。

1.1标记

加粗的字母表示向量和矩阵。斜体的大写字母表示转置。

2Highway Networks

平坦的前馈神经网络一般都包含L层

H是放射矩阵,WH是参数。


但是在Highway Network中,我们定义了两个额外的非线性转换。因此,


其中T指的是传送门,C指的是携带门。这显示了输出的不同权重。为了简化,在本论文中C = 1 - T。


为了保证公式(3)的合法性,的维度需要一样。特别的注意:


类似的,雅克比行列式:


一个highwaylayer


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值