1 最优化问题
- 最优化问题是求解函数极值的问题,包括极大值和极小值。在机器学习之类的实际应用中,我们一般将最优化问题统一表述为求解函数的极小值问题,即:minxf(x)min_xf(x)minxf(x)其中x称为优化变量,f称为目标函数。
- 极大值问题可以转换成极小值问题来求解,只需要将目标函数加上负号即可:minx(−f(x))min_x(-f(x))minx(−f(x))
- 优化问题的全局极小值x∗x^{*}x∗是指对于可行域里所有的x,不大于任意一点处的函数值,即:f(x∗)≤f(x)f(x^*)\leq f(x)f(x∗)≤f(x)
- 优化问题的局部极小值x∗x^{*}x∗ 定义为存在一个δ\deltaδ 邻域,对于在邻域内∣∣x−x∗∣∣≤δ||x-x^*||\leq\delta∣∣x−x∗∣∣≤δ,并且在可行域内的所有x,有:f(x∗)≤f(x)f(x^*)\leq f(x)f(x∗)≤f(x)
2 导数与梯度
- 多元函数的梯度定义为:▽f(x)=(∂f∂x1,...,∂f∂xn)T\triangledown f(x)=\left ( \frac {\partial f} {\partial x_1},..., \frac {\partial f} {\partial x_n}\right )^T▽f(x)=(∂x1∂f,...,∂xn∂f)T 其中▽\triangledown▽称为梯度算子,它作用于一个多元函数,得到一个向量。如:▽(x2+xy−y2)=(2x+y,y−2y)\triangledown (x^2+xy-y^2)=(2x+y,y-2y)▽(x2+xy−y2)=(2x+y,y−2y)
- 可导函数在某一点处取得极值的必要条件是梯度为0,梯度为0的点称为函数的驻点,但不是充分条件,即梯度为0的点可能不是极值点。
- 要判断是极大值还是极小值,要看二阶导数/Hessian矩阵(由函数的二阶偏导数构成的矩阵)。有如下情况:
1.如果二阶导数大于0 / Hessian矩阵正定,函数有极小值
2.如果二阶导数小于0 / Hessian矩阵负定,函数有极大值
3.如果二阶导数等于0 / Hessian矩阵不定,情况不定 - 疑问:直接求函数的导数/梯度,然后令导数/梯度为0,解方程,问题不就解决了吗?然后有些方程可能很难解。比如下面的函数:f(x,y)=x3−2x2+exy−y3+10y2+50sin(xy)f(x,y)=x^3-2x^2+e^{xy}-y^3+10y^2+50sin(xy)f(x,y)=x3−2x2+exy−y3+10y2+50sin(xy)
分别对x和y求偏导数,并令它们为0,得到下面的方程组:{3x2−4x+yexy+50ycos(xy)=0xexy−3y2+20y+50xcos(xy)=0\begin{cases} 3x^2-4x+ye^{xy}+50ycos(xy)=0 \\ xe^{xy}-3y^2+20y+50xcos(xy)=0 \end{cases}{3x2−4x+yexy+50ycos(xy)=0xexy−3y2+20y+50xcos(xy)=0这个方程非常难以求解,对于有指数函数,对数函数,三角函数的方程,我们称为超越方程,求解的难度并不比求极值本身小。 - 精确的求解不太可能,因此只能求近似解,这称为数值计算。工程上实现时通常采用的是迭代法,它从一个初始点x0x_{0}x0 开始,反复使用某种规则从xkx_{k}xk移动到下一个点xk+1x_{k+1}xk+1 ,构造这样一个数列,直到收敛到梯度为0的点处。即有下面的极限成立:limk→+∞▽f(xk)=0lim_{k\rightarrow +\infty}\triangledown f(x_k)=0limk→+∞▽f(xk)=0
- 这些规则一般会利用一阶导数信息即梯度,或者二阶导数信息即Hessian矩阵。这样迭代法的核心是得到这样的由上一个点确定下一个点的迭代公式:xk+1=h(xk)x_{k+1}=h(x_k)xk+1=h(xk)此时我们没有全局信息,根本就不知道哪里是地势最低的点,只能想办法往下走,走一步看一步。
3 推导过程
- 如果一个一元函数n阶可导,它的泰勒展开公式为:f(x+Δx)=f(x)+f′(x)Δx+12f′(x)(Δx)2+...+1n!f(n)(x)(Δx)nf(x+\Delta x)=f(x)+f'(x)\Delta x + \frac {1} {2}f'(x)(\Delta x)^2+...+\frac{1}{n!}f^{(n)}(x)(\Delta x)^nf(x+Δx)=f(x)+f′(x)Δx+21f′(x)(Δx)2+...+n!1f(n)(x)(Δx)n
- 多元函数f(x)f(x)f(x)在x点处的泰勒展开为:f(x+Δx)=f(x)+(▽f(x))TΔx+o(Δx)f(x+\Delta x)=f(x)+(\triangledown f(x))^T\Delta x+o(\Delta x)f(x+Δx)=f(x)+(▽f(x))TΔx+o(Δx) 这里忽略了二次及更高的项。其中一次项是梯度向量与自变量增量Δx\Delta xΔx 的内积(▽f(x)TΔx)(\triangledown f(x)^T \Delta x)(▽f(x)TΔx),这等价于一元函数的f′(x0)(Δx)f^{'}(x_{0})(\Delta x)f′(x0)(Δx)。
- 函数的增量与自变量的增量Δx\Delta xΔx 、函数梯度的关系可以表示为:f(x+Δx)−f(x)=(▽f(x))TΔx+o(Δx)f(x+\Delta x)-f(x)=(\triangledown f(x))^T\Delta x+o(\Delta x)f(x+Δx)−f(x)=(▽f(x))TΔx+o(Δx)
1万+

被折叠的 条评论
为什么被折叠?



