前言
Datawhale开源学习:机器学习,202406
西瓜书+南瓜书 第三章 线性回归
先上个图简单总结下基本流程。
极大似然估计:
概率:是已知模型的概率,去推测执行后的结果。
似然:就是通过事实(数据),来推断出函数参数最有可能的值。
举例,根据服从正态分布的X∼N(μ,σ2)X\sim N\left ( \mu ,\sigma ^{2} \right )X∼N(μ,σ2)的一批观测样本,随机变量X的概率密度函数为:
p(x;μ,σ2)=12πσexp(−(x−μ)22σ2)p\left(x ; \mu, \sigma^{2}\right)=\frac{1}{\sqrt{2 \pi} \sigma} \exp \left(-\frac{(x-\mu)^{2}}{2 \sigma^{2}}\right)p(x;μ,σ2)=2πσ1exp(−2σ2(x−μ)2)
得到似然函数:L(μ,σ2)=∏i=1np(xi;μ,σ2)=∏i=1n12πσexp(−(xi−μ)22σ2)L\left(\mu, \sigma^{2}\right)=\prod_{i=1}^{n} p\left(x_{i} ; \mu, \sigma^{2}\right)=\prod_{i=1}^{n} \frac{1}{\sqrt{2 \pi} \sigma} \exp \left(-\frac{\left(x_{i}-\mu\right)^{2}}{2 \sigma^{2}}\right)L(μ,σ2)=∏i=1np(xi;μ,σ2)=∏i=1n2πσ1exp(−2σ2(xi−μ)2)
极大似然:求解μ\muμ 、σ2\sigma ^{2}σ2,使得 L(μ,σ2)L\left(\mu, \sigma^{2}\right)L(μ,σ2)最大。
定义1:
凸函数,设D⊂RnD\subset R^{n}D⊂Rn 是非空凸集,f是定义在D上的函数,如果对任意的,x1x^{1}x1、x2x^{2}x2∈D以及α∈(0,1),均有
f(αx1+(1−α)x2)≤αf(x1)+(1−α)f(x2)f(\alpha x^{1} +\left ( 1-\alpha \right )x^{2} )\le \alpha f\left ( x^{1} \right ) + \left (1-\alpha \right ) f\left ( x^{2} \right ) f(αx1+(1−α)x2)≤αf(x1)+(1−α)f(x2)
则称f为D上的凸函数。
定理1:如果f(x)的Hessian矩阵▽2f(x)\bigtriangledown ^{2} f\left ( x \right )▽2f(x)在D上是半正定的,则f(x)是D上的凸函数;如果∇^2 f(x)在D上是正定的,则f(x)是D上的严格凸函数。
定理2:若f(x)是凸函数,且f(x)一阶连续可微,则x∗x^{*}x∗是全局解的充分必要条件是其梯度等于零向量,即▽f(x∗)=0\bigtriangledown f\left ( x^{*} \right ) =0▽f(x∗)=0。
定义2:梯度,多元一次函数在各分量x_i处偏导数均存在,则称函数f(x)在x处一阶可导,其梯度函数(一阶函数)为
▽f(x)=∂f(x)∂x=[∂f(x)∂x1∂f(x)∂x2⋮∂f(x)∂xn] \bigtriangledown f\left ( x \right ) = \frac{\partial f\left ( x \right )}{\partial x} =\begin{bmatrix}\frac{\partial f\left ( x \right )}{\partial x_{1} } \\\frac{\partial f\left ( x \right )}{\partial x_{2} } \\\vdots \\\frac{\partial f\left ( x \right )}{\partial x_{n} } \end{bmatrix}▽f(x)=∂x∂f(x)=
∂x1∂f(x)∂x2∂f(x)⋮∂xn∂f(x)
另外,Hessian矩阵就是f(x)二阶求导;
顺序主子式:
Hi=∣a11a12…a1na21a22…a2n…………an1an2…a21∣ H_{i} =\begin{vmatrix} a_{11} & a_{12} & \dots & a_{1n}\\ a_{21}& a_{22} & \dots & a_{2n}\\ \dots& \dots & \dots &\dots \\ a_{n1}& a_{n2}& \dots &a_{21} \end{vmatrix}Hi=
a11a21…an1a12a22…an2…………a1na2n…a21