隐藏单元
前面我们讨论了神经网络的设计选择,这在使用基于梯度的优化方法来训练的大多数参数化机器学习模型都是通用的。现在,我们研究一个前馈神经网络独有的问题:如何选择隐藏单元的类型?
首先,说明一些基本情况,目前隐藏单元的设计没有明确的指导性原则,所以使用哪种类型的单元需要实际尝试和验证。另外,隐藏单元可能并不都是在所有的输入点上都是可微的,但这并不会太影响实际使用,一个重要原因就是这些神经网络算法通常不会达到代价函数的局部最小值,而是仅仅显著地减小它的值。另外,如果代价函数在某个点不可微,但是如果具有该点的左导数或者右导数,那么就可以返回这俩中的其中一个。除非另有说明,大多数的隐藏单元都可以描述为:接受输入向量xxx,计算仿射变换z=WTx+bz = W^Tx + bz=WTx+b,然后使用一个逐元素的非线性函数g(x)\mathcal{g}(x)g(x)。所以,大多数隐藏单元的区别仅仅在于激活函数g(x)\mathcal{g}(x)g(x)的形式。
通常情况下,会选择整流线性单元,它的激活函数是g(z)=max{ 0,z}\mathcal{g}(z) = \max \{ 0, z \}g(z)=max{ 0,z}

本文探讨了前馈神经网络中隐藏单元的选择,重点介绍了整流线性单元及其变种,如绝对值整流、渗漏整流、参数化整流和maxout单元。此外,还讨论了神经网络的架构设计,包括深度和宽度的影响,以及万能近似定理。文章指出,深度模型能更有效地近似复杂函数,并且在某些情况下可以减少过拟合和泛化误差。
最低0.47元/天 解锁文章
1102

被折叠的 条评论
为什么被折叠?



