GraphGeo参文3：Neural ordinary differential equations（概率分布变换的连续形式归一化流）

最新推荐文章于 2025-03-06 11:03:47 发布

路由跳变

最新推荐文章于 2025-03-06 11:03:47 发布

阅读量1.9k

点赞数 45

分类专栏： GraphGeo 文章标签： tcp/ip 服务器网络协议

本文链接：https://blog.youkuaiyun.com/sinat_41942180/article/details/136451616

版权

这篇博客介绍了Neural Ordinary Differential Equations（神经微分方程，简称Neural ODEs）的概念，它是深度学习领域的一种新模型，通过将隐藏层的状态导数用神经网络参数化，实现连续的深度模型。博客通过自由落体物体的例子解释了微分方程的解析和数值解法，并对比了ResNet和ODEnet的前向传播和反向传播过程。Neural ODEs的优势在于常数级的内存成本和能够根据输入动态调整计算策略。文章还讨论了如何将这些模型应用于生成模型，特别是连续型的归一化流。最后，提到了现有的一些改进工作和未来的研究方向。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

[3]Tian Qi Chen, Yulia Rubanova, Jesse Bettencourt, and David K Duvenaud. 2018. Neural ordinary differential equations. In NeurIPS. 6572–6583.

NeruIPS 2018最佳论文，这篇论文涉及到大量的数学公式，不太懂的朋友们可以看看我这篇以及我在文章最后推荐的其他链接，多看就会慢慢明白的。

论文链接：https://arxiv.org/abs/1806.07366

GitHub链接：https://github.com/rtqichen/tor

一、ABSTRACT

我们引入了一种新的深度神经网络模型家族。我们没有指定一个离散的隐藏层序列，而是使用神经网络参数化隐藏状态的导数。该网络的输出是用一个黑盒微分方程求解器来计算的。这些连续深度模型具有恒定的内存成本，可以根据每个输入调整其评估策略，并可以明确地用数值精度换取速度。我们在连续深度剩余网络和连续时间潜变量模型中证明了这些特性。我们还构造了连续的归一化流，一个生成模型，可以通过最大似然进行训练，而不需要对数据维进行划分或排序。对于培训，我们展示了如何通过任何ODE求解器可伸缩地反向传播，而不访问其内部操作。这允许在更大的模型中对ODE进行端到端训练。

二、例子：自由下落的物体

本例子理解参考视频链接：https://www.youtube.com/watch?v=sIFnARdTVvE

对应文字解读链接：Zhenyue Qin：神经常微分方程 (Neural ODE)：入门教程和的泼墨佛给克呢：Neural ODE（Ordinary Differential Equations）/神经常微分方程

具体的例子可以帮助我们理解抽象的概念。其中一个例子是自由下落物体。假设我们把一个物体从空中扔下来并想知道它在时间 $t$ 的速度。尽管我们不知道 $v_{t}$ ，但我们知道 ${v}'$ ，也就是 $\frac{dv}{dt}$ 。

我们的目标是找出速度如何随时间变化，因为我们需要了解这个才能解决微分方程。我们可以利用牛顿第二定律来解决问题，其形式为： $F=ma$

我们也知道加速度是速度随时间的变化率： $a=\frac{dv}{dt}$

因此，我们可以使用上述方程，并将力表示为速度和时间的函数： $m\frac{dv}{dt}=F(t,v)$

如果我们忽略空气摩擦，物体上的力仅仅是质量乘以一个常数： $m\frac{dv}{dt}=mg\left ( g=9.8ms/^{2} \right )$

然而，如果我们考虑空气摩擦，则相反的力依赖于物体的速度，并且与物体的运动方向相反。我们可以将这种相反的力表示为 $\gamma \cdot \upsilon$ ，其中 $\gamma$ 是摩擦常数。物体下落得越快，摩擦力就越强，这将减慢物体的速度。具有空气摩擦的自由落体物体的微分方程为： $\frac{dv}{dt}=g-\frac{\gamma }{m}\upsilon$

这里，g 是重力加速度（ $9.8m/s^{2}$ ）， $m$ 是物体的质量（假设为 1 千克）。该方程将速度（ $\upsilon$ ）和时间（ $t$ ）与速度的变化率（ $\frac{dv}{dt}$ ）相关联。

现在，我们可以讨论如何解决与物体速度相关的微分方程。我们的目标是确定不同时间点物体的速度，例如 5、10 或 15 秒后的速度。为了实现这一目标，我们可以先考虑我们知道物体速度的时间点，比如 $50m/s$ 。我们可以将这个速度值代入我们的方程： $\frac{dv}{dt}=9.8-0.196\upsilon$