深度学习理论原理翻译page1-6

The simulation is such that [one] generally perceives the sum of many billions of elementary processes simultaneously, so that the leveling law of large numbers completely obscures the real nature of the individual processes.

人们通常可以同时感知数十亿个基本过程的总和,因此大数水准定律完全掩盖了单个过程的真实性质。

0.1 一种有效的理论方法

0.2 理论最小值

f(x,θ);f(x,\theta);f(x,θ);其中,x是函数的输入,θ是控制函数形状的大量参数的向量。为了使这样的函数有用,我们需要以某种方式调整高维参数向量θ。在实践中,这可以分两个步骤来完成:

  • 首先,我们通过从一个计算简单的概率分布中随机抽样参数向量θ来初始化网络,p(θ)p(\theta)p(θ),稍后我们将讨论为什么初始化分布p(θ)是一个很好的策略,但更重要的是,这与实践中所做的相一致,我们在本书中的方法是让我们的理论分析对应于现实的深度学习场景
  • 其次,我们调整参数向量为θ→θ∗θ→θ^*θθ,这样,所得到的网络函数为f(x;θ∗)f(x;θ^*)f(x;θ)是否尽可能接近一个期望的目标函数f(x)f (x)f(x)f(x;θ∗)≈f(x).(0.3)f(x;θ^*)≈f (x).(0.3)f(x;θ)f(x).(0.3)

这个叫做函数近似。要找到这个变量θθθ,我们将网络函数f(x;θ)f(x;θ)f(x;θ)拟合到训练数据中,这些数据包括许多从期望的形式(x,f(x))(x,f (x))(x,f(x)),但只有部分可观察到的目标函数f(x)f(x)f(x)。总的来说,对参数进行这些调整称为训练,用于调整参数的特定过程称为学习算法

我们的目标是理解这种经过训练的网络功能:f(x;θ∗)f(x;θ^*)f(x;θ)

特别是,我们想从这些训练过的参数θ∗θ^*θ的第一性原理微观描述来理解这个函数的宏观行为。我们还想理解函数近似(0.3)是如何工作的,并评估如何f(x;θ∗)f(x;θ^*)f(x;θ)使用训练数据(x,f(x))(x,f (x))(x,f(x))来近似f(x)f(x)f(x)。考虑到参数θ的高维性和近似所需的微调程度,这个目标似乎很幼稚,而且超出了任何现实的理论方法的覆盖范围。

要想更直接地看到我们将遇到的技术问题的一种方法是Taylor扩展我们训练的网络函数f(x;θ∗)f(x;θ^*)f(x;θ)在参数θ的初始化值附近。为了方便举例,我们暂时忽略θ\thetaθ是一个向量,f(x,θ)f(x,\theta)f(x,θ)是一个张量,我们可以写成:

在这里插入图片描述

其中,f(x;θ)f(x;θ)f(x;θ)及其右边的导数都是参数的初始化值。这个泰勒表示说明了我们的三个主要问题:

问题1

总之,(0.5)包含无限个项,

f,dfdθ,d2fdθ2,...,(0.6)f,\frac{df}{d\theta},\frac{d^2f}{d\theta^2},...,(0.6)f,dθdf,dθ2d2f,...,(0.6)

为了使用函数(0.5)的泰勒表示,原则上我们需要全部计算它们。更具体地说,作为训练参数和初始化参数之间的差异,θ∗→θθ^*→θθθ,变得很大,所以得到训练好的网络函数f(x;θ∗)f(x;θ^*)f(x;θ)的所需的项的数量也很大。

问题2

由于参数θ是从初始化分布,p(θ)中随机抽样的,所以每次我们初始化我们的网络时,我们得到一个不同的函数f(x;θ)f(x;θ)f(x;θ)。这意味着每个项f,dfdθ,d2fdθ2,...,f,\frac{df}{d\theta},\frac{d^2f}{d\theta^2},...,f,dθdf,dθ2d2f,...,(0.6)实际上是输入x的随机函数。因此,初始化导致了在网络函数及其导数上的分布,我们需要确定映射,

p(θ)→p(f,dfdθ,d2fdθ2,...(0.7)p(\theta)→p(f,\frac{df}{d\theta},\frac{d^2f}{d\theta^2},...(0.7)p(θ)p(f,dθdf,dθ2d2f,...(0.7)

这将把我们从初始参数θ\thetaθ的分布带到网络函数f(x;θ)f(x;θ)f(xθ)、其梯度dfdθ\frac{df}{d\theta}dθdf、其Hessiand2fdθ2\frac{d^2f}{d\theta^2}dθ2d2f的联合分布,等等。这是一个由无限个随机函数组成的联合分布,一般来说,这些函数将具有复杂的统计依赖性。即使我们暂时搁置这个无穷大的函数,而只考虑网络函数的边际分布,p (f),仍然没有理由期望它在分析上是可处理的。

问题3

参数的学习值,θ∗θ^*θ,这是一个复杂的训练过程的结果。一般来说,θ∗θ^*θ并不是唯一的,可以依赖于一切:

在这里插入图片描述

在实际应用中,学习算法是迭代的,在许多步骤中积累变化,相互作用是非线性的。因此,训练后的参数是θ∗θ^*θ将以一种非常复杂的方式依赖于初始化时的所有量,如参数θ的特定随机样本,网络函数f(x;θ)f(x;θ)f(x;θ)及其所有衍生物,dfdθ,d2fdθ2,...,\frac{df}{d\theta},\frac{d^2f}{d\theta^2},...,dθdf,dθ2d2f,...,以及学习算法的细节和特定的配对,(x,f(x))(x,f (x))(x,f(x)),这就包括了训练数据。确定θ∗θ^*θ的解析表达式必须考虑到这这些。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值