ReLU深度网络能逼近任意函数的原因

最新推荐文章于 2024-08-11 18:00:39 发布

转载最新推荐文章于 2024-08-11 18:00:39 发布 · 7.2k 阅读

DL 专栏收录该内容

158 篇文章

订阅专栏

本文探讨了ReLU深度网络为何能近似任意函数。ReLU网络通过分段线性方式分割数据空间，随着网络深度增加，线性区域数量呈指数级增长，从而实现复杂函数的近似。适当的网络深度和平滑激活函数结合使用可以避免过拟合。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

今天读了一遍谷歌大脑工程师Eric Jang的一个解答，想把这个知识与大家分享！最近也发现，有很多牛人喜欢在博客中分享DL的相关知识，所以个人感觉有空可以在博客中度阅读一些相关内容，对自己基础和深度了解有很大的帮助，也在此感谢那些为DL&ML默默共享的大牛们，让我们一起努力学习！！！那就不多说了，开始对这个话题的理解。嘿嘿！

有很多人问：为什么ReLU深度网络能逼近任意函数？

对此，其有深入见解，但是在此他是简单，并用最少的数学形式来解释这个问题。ReLU其实是分段线性的，所以有人会质疑，对于一个固定大小的神经网络，ReLU网络可能不具有更平滑+有界的激活函数（如tanh）的表达。

因为他们学习非平滑函数，ReLU网络应该被解释为以分段线性方式分离数据，而不是实际上是一个“真实”函数近似。在机器学习中，人们经常试图从有限离散数据点（即100K图像）的数据集中学习，并且在这些情况下，只需学习这些数据点的分隔就足够了。考虑二维模数运算符，即：

vec2 p = vec2(x,y) // x,y are floats 
    vec2 mod(p,1) {
     return vec2(p.x % 1, p.y % 1)
    }

mod函数的输出是将所有2D空间折叠/散架到单位平方上的结果。这是分段线性，但高度非线性（因为有无限数量的线性部分）。

用ReLU激活的深层神经网络工作相似-它们将激活空间分割/折叠成一簇不同的线性区域，像一个真正复杂的折纸。

可以看“On the number of linear regions of Deep Neural Networks”这篇文章的第三幅图，就很清楚表现了。

在文章的图2中，它们展示了在网络中层的深度/层数的如何增加的，线性区域的数量呈指数增长。

事实证明，有足够的层，你可以近似“平滑”任何函数到任意程度。此外，如果你在最后一层添加一个平滑的激活函数，你会得到一个平滑的函数近似。

一般来说，我们不想要一个非常平滑的函数近似，它可以精确匹配每个数据点，并且过拟合数据集，而不是学习一个在测试集上可正常工作的可泛化表示。通过学习分离器，我们得到更好的泛化性，因此ReLU网络在这种意义上更好地自正则化。

详情：A Comparison of the Computational Power of Sigmoid and Boolean Threshold Circuits