为什么两层网络能够拟合任意函数

xpc_buaa

于 2022-09-23 14:12:38 发布

阅读量1.4k

点赞数 2

CC 4.0 BY-SA版权

文章标签：机器学习深度学习 python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/xiadimichen14908/article/details/127009248

本文详细探讨了两层神经网络的强大拟合能力，通过1D函数示例，解释了如何通过密集采样和分段线性函数实现对连续函数的无限逼近。重点介绍了ReLU的引入如何使得网络具备非线性，从而适应复杂函数的拟合。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

最近在上CMU深度学习系统算法与实现的在线课程，里面有一页PPT讲解了为什么两层网络能够拟合任意函数。

神经网络由于强大的拟合能力以及数据驱动的方式，被广泛运用到不同的领域。但是为什么神经网络有这么强的拟合能力，我还一直没有深究过，只知道是线性和非线性的叠加。闲话不多说

首先这个问题在1D情况，如图所示。对于任意的平滑函数，在封闭集合D范围内，我们都可以构建两层网络,让D内任意的数据的误差小于 $\epsilon$ ,显然如果误差越小，网络的节点就需要越高

简单证明如下

在封闭集合D中采样密集的数据点。我们能够构造2层网络通过所有的这些数据点（后面会详细证明），并且网络是分段的线性函数，同时被拟合的函数是连续函数，通过采样尽量多的点实现无线的逼近。

首先说明网络为什么是分段线性。2层网络结构如下图所示，其中x是一维向量，W1,W2是网络权重，这里非线性函数选择RELU, $h_\theta(x)=ReLU(XW_1)W_2=\sum_{i,j} w_{2j}max(0,w_{1i}x+b_i)+b_j$

可以简化为

函数可以由 $\pm max(0,w_ix+b)$ ,线性组合叠加， $\pm max(0,w_ix+b)$ ，

形状如图所示

由于relu存在引入了非线性，当你尝试用分段函数去表示的时候，你就会发现，我们实现下面的效果，

每个数据点可以拟合一个分段，从而实现对所有集合的拟合

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。