优化理论——迭代方法

原创

已于 2024-07-15 18:34:32 修改 · 1.2k 阅读

22 ·

CC 4.0 BY-SA版权

文章标签：

#机器学习 #人工智能

于 2024-07-15 10:03:52 首次发布

线性回归建模

训练，预测

${(x^{(i)},y^{(i)})\}$ ⼀个训练样本， $\{(x^{(i)},y^{(i)});i=1,\cdots ,N\}$ 训练样本集
$\{(x_1^{(i)},x_2^{(i)},y^{(i)})\}\longrightarrow\{(\mathbf{x}^{(i)},y^{(i)})\},\mathbf{x}^{(i)}=[\begin{array}{c}x_1^{(i)}\\x_2^{(i)}\end{array}]$
试图学习
- 一维： $f (x) = w x + b$ 使得 $f(x^{(i)}) \approx y^{(i)}$
- 多维： $f(x)=\mathbf{w}^T \mathbf{x}+b$ 使得 $f(\mathbf{x}^{(i)}) \approx y^{(i)}$
  核心问题在于如何学习？

⽆约束优化梯度分析法

无约束优化问题

⾃变量为标量的函数 $f$ ： $\mathbf{R} \rightarrow \mathbf{R}$
$\min f(x) \quad x \in \mathbf{R}$
⾃变量为标量的函数 $f$ ： $\mathbf{R}^n \rightarrow \mathbf{R}$
$\min f(x) \quad \mathbf{x} \in \mathbf{R}^n$
Contour（等高图）

优化问题可能的极值点情况

梯度和 Hessian 矩阵

一阶导数和梯度（gradient vector）
$f'(x);\mathbf{g}\left(\mathbf{x}\right)=\nabla f(\mathbf{x})=\frac{\partial f(\mathbf{x})}{\partial\mathbf{x}}=\left[\begin{array}{c}\frac{\partial f(\mathbf{x})}{\partial x_1}\\\vdots\\\frac{\partial f(\mathbf{x})}{\partial x_n}\end{array}\right]$
⼆阶导数和 Hessian 矩阵
$f''(x);\left.\mathbf{H}\left(\mathbf{x}\right)=\nabla^{2}f\left(\mathbf{x}\right)=\left[\begin{array}{ccccc}\frac{\partial^{2}f(\mathbf{x})}{\partial x_{1}^{2}}&\frac{\partial^{2}f(\mathbf{x})}{\partial x_{1}\partial x_{2}}&\cdots&\frac{\partial^{2}f(\mathbf{x})}{\partial x_{1}\partial x_{n}}\cdots\\\frac{\partial^{2}f(\mathbf{x})}{\partial x_{2}\partial x_{1}}&\frac{\partial^{2}f(\mathbf{x})}{\partial x_{2}^{2}}\\&&\ddots\\\frac{\partial^{2}f(\mathbf{x})}{\partial x_{n}\partial x_{1}}&\frac{\partial^{2}f(\mathbf{x})}{\partial x_{n}\partial x_{2}}&&\frac{\partial^{2}f(\mathbf{x})}{\partial x_{n}^{2}}\end{array}\right.\right]=\nabla\left(\nabla f(\mathbf{x})\right)^{T}$

二次型

给定矩阵 $\in \mathbf{R}^{n\times n}$ ，函数
$\mathbf{x}^{T}\mathbf{A}\mathbf{x}=\sum_{i=1}^{n}x_{i}\left(\mathbf{A}\mathbf{x}\right)_{i}=\sum_{i=1}^{n}x_{i}\left(\sum_{j=1}^{n}a_{ij}x_{j}\right)=\sum_{i=1}^{n}\sum_{j=1}^{n}x_{i}x_{j}a_{ij}$
被称为⼆次型。

例：对于 $f\left(\mathbf{x}\right)=x_1^2+x_2^2+x_3^2$ ，可以写成下面的二次型：
$\begin{aligned} f(x_1,x_2,x_3)=\begin{bmatrix}x_1,x_2,x_3\end{bmatrix}\begin{bmatrix}1&0&0\\0&1&0\\0&0&1\end{bmatrix}\begin{bmatrix}x_1\\x_2\\x_3\end{bmatrix} \end{aligned}$

最低0.47元/天解锁文章