MXNet自动微分机制autograd详解-优快云博客

本文链接：https://blog.youkuaiyun.com/gitblog_01087/article/details/148862764

MXNet自动微分机制autograd详解

mxnet-the-straight-dope An interactive book on deep learning. Much easy, so MXNet. Wow. [Straight Dope is growing up] ---> Much of this content has been incorporated into the new Dive into Deep Learning Book available at https://d2l.ai/. 项目地址: https://gitcode.com/gh_mirrors/mx/mxnet-the-straight-dope

自动微分是现代深度学习框架的核心功能之一。本文将深入解析MXNet框架中的autograd模块，帮助读者理解自动微分的工作原理及其在深度学习中的应用。

自动微分的基本概念

在机器学习中，我们通过训练模型使其随着经验积累而不断改进。这种改进通常意味着最小化一个损失函数，即评估模型表现好坏的评分指标。对于神经网络而言，我们选择的损失函数需要相对于模型参数是可微的。这意味着对于每个模型参数，我们都能确定增加或减少该参数会对损失产生多大影响。

虽然这些计算在数学上是直接的，但对于复杂模型来说，手动计算导数将变得非常繁琐。MXNet的autograd包通过自动计算导数极大地简化了这一过程。

autograd的核心特性

与其他需要编译符号图才能进行自动微分的库不同，MXNet的autograd模块允许我们在编写普通命令式代码的同时进行微分计算。每次模型前向传播时，autograd会动态构建计算图，通过这个图可以立即反向传播梯度。

基本使用示例

让我们通过一个简单例子来理解autograd的工作原理。假设我们要对函数f = 2 * (x ** 2)关于参数x求导。

首先，我们初始化x的值：

import mxnet as mx
from mxnet import nd, autograd

x = nd.array([[1, 2], [3, 4]])

为了存储梯度，我们需要告诉MXNet我们计划计算关于x的梯度：

x.attach_grad()

接下来，我们定义计算过程并让MXNet记录计算图：

with autograd.record():
    y = x * 2
    z = y * x

这里，autograd.record()上下文管理器会记录其中的所有操作，构建计算图。

反向传播

调用backward()方法进行反向传播：

z.backward()

现在我们可以检查x的梯度：

print(x.grad)

根据数学推导，y = x * 2，z = x * y，所以z = 2 * x * x。对z关于x求导，我们期望得到dz/dx = 4 * x。因此，x.grad应该包含值[[4, 8],[12, 16]]。

链式法则与头梯度

在更复杂的情况下，我们可能需要处理链式求导。考虑z是y的函数，而y又是x的函数的情况。根据链式法则：

$\frac{d}{dx} z(y(x)) = \frac{dz(y)}{dy} \frac{dy(x)}{dx}$

MXNet允许我们通过backward()方法的head_gradient参数传入$\frac{dz}{dy}$：

with autograd.record():
    y = x * 2
    z = y * x

head_gradient = nd.array([[10, 1.], [.1, .01]])
z.backward(head_gradient)
print(x.grad)

动态控制流的自动微分

autograd的强大之处在于它能处理包含Python控制流的动态计算图：

a = nd.random_normal(shape=3)
a.attach_grad()

with autograd.record():
    b = a * 2
    while (nd.norm(b) < 1000).asscalar():
        b = b * 2
    
    if (mx.nd.sum(b) > 0).asscalar():
        c = b
    else:
        c = 100 * b

head_gradient = nd.array([0.01, 1.0, .1])
c.backward(head_gradient)
print(a.grad)

这个例子展示了autograd如何处理包含循环和条件语句的复杂计算图。