深度学习理论原理翻译page1-6-优快云博客

The simulation is such that [one] generally perceives the sum of many billions of elementary processes simultaneously, so that the leveling law of large numbers completely obscures the real nature of the individual processes.

人们通常可以同时感知数十亿个基本过程的总和，因此大数水准定律完全掩盖了单个过程的真实性质。

0.1 一种有效的理论方法

0.2 理论最小值

$f(x,θ);f(x,\theta);$ 其中，x是函数的输入，θ是控制函数形状的大量参数的向量。为了使这样的函数有用，我们需要以某种方式调整高维参数向量θ。在实践中，这可以分两个步骤来完成：

首先，我们通过从一个计算简单的概率分布中随机抽样参数向量θ来初始化网络， $p(θ)p(\theta)$ ，稍后我们将讨论为什么初始化分布p(θ)是一个很好的策略，但更重要的是，这与实践中所做的相一致，我们在本书中的方法是让我们的理论分析对应于现实的深度学习场景
其次，我们调整参数向量为 $θ→θ^*$ ，这样，所得到的网络函数为 $f(x;θ^*)$ 是否尽可能接近一个期望的目标函数 $f (x)$ ： $f(x;θ^*)≈f (x).(0.3)$

这个叫做函数近似。要找到这个变量 $θ$ ，我们将网络函数 $f (x; θ)$ 拟合到训练数据中，这些数据包括许多从期望的形式 $(x, f (x))$ ，但只有部分可观察到的目标函数 $f (x)$ 。总的来说，对参数进行这些调整称为训练，用于调整参数的特定过程称为学习算法。

我们的目标是理解这种经过训练的网络功能： $f(x;θ^*)$

特别是，我们想从这些训练过的参数 $θ^*$ 的第一性原理微观描述来理解这个函数的宏观行为。我们还想理解函数近似（0.3）是如何工作的，并评估如何 $f(x;θ^*)$ 使用训练数据 $(x, f (x))$ 来近似 $f (x)$ 。考虑到参数θ的高维性和近似所需的微调程度，这个目标似乎很幼稚，而且超出了任何现实的理论方法的覆盖范围。

要想更直接地看到我们将遇到的技术问题的一种方法是Taylor扩展我们训练的网络函数 $f(x;θ^*)$ 在参数θ的初始化值附近。为了方便举例，我们暂时忽略 $θ\theta$ 是一个向量， $f(x,θ)f(x,\theta)$ 是一个张量，我们可以写成：

在这里插入图片描述

其中， $f (x; θ)$ 及其右边的导数都是参数的初始化值。这个泰勒表示说明了我们的三个主要问题：

问题1

总之，（0.5）包含无限个项，

$f,dfdθ,d2fdθ2,...,(0.6)f,\frac{df}{d\theta},\frac{d^2f}{d\theta^2},...,(0.6)$

为了使用函数（0.5）的泰勒表示，原则上我们需要全部计算它们。更具体地说，作为训练参数和初始化参数之间的差异， $θ^*→θ$ ，变得很大，所以得到训练好的网络函数 $f(x;θ^*)$ 的所需的项的数量也很大。

问题2

由于参数θ是从初始化分布，p(θ)中随机抽样的，所以每次我们初始化我们的网络时，我们得到一个不同的函数 $f (x; θ)$ 。这意味着每个项 $f,dfdθ,d2fdθ2,...,f,\frac{df}{d\theta},\frac{d^2f}{d\theta^2},...,$ （0.6）实际上是输入x的随机函数。因此，初始化导致了在网络函数及其导数上的分布，我们需要确定映射，

$p(θ)→p(f,dfdθ,d2fdθ2,...(0.7)p(\theta)→p(f,\frac{df}{d\theta},\frac{d^2f}{d\theta^2},...(0.7)$

这将把我们从初始参数 $θ\theta$ 的分布带到网络函数 $f (x ； θ)$ 、其梯度 $dfdθ\frac{df}{d\theta}$ 、其Hessian $d2fdθ2\frac{d^2f}{d\theta^2}$ 的联合分布，等等。这是一个由无限个随机函数组成的联合分布，一般来说，这些函数将具有复杂的统计依赖性。即使我们暂时搁置这个无穷大的函数，而只考虑网络函数的边际分布，p (f)，仍然没有理由期望它在分析上是可处理的。

问题3

参数的学习值， $θ^*$ ，这是一个复杂的训练过程的结果。一般来说， $θ^*$ 并不是唯一的，可以依赖于一切：

在这里插入图片描述

在实际应用中，学习算法是迭代的，在许多步骤中积累变化，相互作用是非线性的。因此，训练后的参数是 $θ^*$ 将以一种非常复杂的方式依赖于初始化时的所有量，如参数θ的特定随机样本，网络函数 $f (x; θ)$ 及其所有衍生物， $dfdθ,d2fdθ2,...,\frac{df}{d\theta},\frac{d^2f}{d\theta^2},...,$ 以及学习算法的细节和特定的配对， $(x, f (x))$ ，这就包括了训练数据。确定 $θ^*$ 的解析表达式必须考虑到这这些。