1.ResNet
1.1 神经网络嵌套函数和非嵌套函数(前提知识):
首先,假设有一类特定的神经网络架构F\mathcal{F}F,它包括学习速率和其他超参数设置。对于所有f∈Ff \in \mathcal{F}f∈F,存在一些参数集(例如权重和偏置),这些参数可以通过在合适的数据集上进行训练而获得。现在假设f∗f^*f∗是我们真正想要找到的函数,如果是f∗∈Ff^* \in \mathcal{F}f∗∈F,那我们可以轻而易举的训练得到它,但通常不能找到我们真正想要的函数f∗f^*f∗,相反,我们将尝试找到一个函数fF∗f^*_\mathcal{F}fF∗,这是我们在F\mathcal{F}F中的最佳选择。例如,给定一个具有X\mathbf{X}X特性和y\mathbf{y}y标签的数据集,我们可以尝试通过解决以下优化问题来找到它:
fF∗:=argminfL(X,y,f) subject to f∈F.f^*_\mathcal{F} := \mathop{\mathrm{argmin}}_f L(\mathbf{X}, \mathbf{y}, f) \text{ subject to } f \in \mathcal{F}.fF∗:=argminfL(X,y,f) subject to f∈F.
那么,怎样得到更近似真正f∗f^*f∗的函数呢?
唯一合理的可能性是,我们需要设计一个更强大的架构F′\mathcal{F}'F′。换句话说,我们预计fF′∗f^*_{\mathcal{F}'}

最低0.47元/天 解锁文章
416





