数值优化（Numerical Optimization）学习系列-计算导数（Calculating Derivatives）

最新推荐文章于 2023-03-23 21:08:06 发布

原创

最新推荐文章于 2023-03-23 21:08:06 发布 · 5.2k 阅读

·

3

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#数值优化 #导数 #梯度计算

本文介绍了数值优化中计算导数的重要性和多种方法，包括有限差分法、自动微分法及其优缺点。详细讨论了前向微分和中心微分的计算，以及在求解雅克比矩阵和Hessian矩阵时的应用。此外，还探讨了自动微分的前向模式和后向模式，并总结了各种方法在不同场景下的适用性。

概述

最优化问题中很多算法，包括非线性最优化、非线性等式等都需要计算导数。简单函数可以直接进行人工计算或者编码实现，对于复杂的情况，需要寻找一些方法进行计算或者近似。本节主要内容包括
1. 常见导数求解方法
2. 有限差分方法
3. 自动微分方法
4. 总结

常见导数求解方法

有限差分方法（Finite Differencing）

根据导数的定义，导数表示函数在给定点x处，给定无限小的涉动后函数值的改动。因此我们可以根据定义，在给定点x处给定一个无限小的抖动，看函数值的变化率，即

\partial f \partial x i \approx f ( x + ϵ e i ) - f ( x - ϵ e i ) 2 ϵ

$\frac{\partial f}{\partial x_i} \approx \frac{f(x+\epsilon e_i)-f(x-\epsilon e_i)}{2\epsilon}$

自动微分方法

基本思路就是将复杂的函数分解为基本函数以及基本运算，然后通过构建有向无环图进行求解。常见函数导数求解方法
这里写图片描述
另外就是导数运算法则，例如函数加、减、乘除以及链式法则的应用。

符号微分法

有限微分近似算法

基础思想是泰勒定理和Lipschitz连续。介绍如下：
1. 泰勒公式：

f (x + p) = f (x) + \nabla f (x) T p + 1 2 p T \nabla 2 f (x + t p) p

$f(x+p)=f(x) + \nabla f(x)^Tp+\frac 12 p^T\nabla ^2 f(x+tp)p$
2. Lipschitz continuous: 对任意的x和x2

d Y (f (x 1, x 2)) \leq K d X (x 1, x 2)

$d_Y(f(x_1,x_2)) \le Kd_X(x1,x2)$ 参考wiki

有限微分近似算法主要是基于导数定义，在给定点x处给定一个无限小的改动，看函数的变化。

前向微分

定义：
$\partial f ( x ) \partial x i \approx f ( x + ϵ e i ) - f ( x ) ϵ$ $\frac{\partial f(x)}{\partial x_i} \approx \frac{f(x+\epsilon e_i)-f(x)}{\epsilon}$
对于n维的向量，需要计算量为（n+1）

方法推导

根据泰勒公式：

f (x + p) = f (x) + \nabla f (x) T p + 1 2 p T \nabla 2 f (x + t p) p

$f(x+p)=f(x) + \nabla f(x)^Tp+\frac 12 p^T\nabla ^2 f(x+tp)p$
假设

||∇2f(x)||≤L $||\nabla^2f(x)|| \le L$ ，L在一定范围内，则有

| | f (x + p) - f (x) - \nabla f (x) T p | | \leq (L / 2) | | p |

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。