机器学习复习part1

最新推荐文章于 2025-01-07 12:14:05 发布

原创最新推荐文章于 2025-01-07 12:14:05 发布 · 215 阅读

1 ·

CC 4.0 BY-SA版权

机器学习复习part1

线性代数复习

表示方法：
1. （，，，） - 行向量
2. （；；；） - 列向量
乘法
矩阵转置
$AI = A = IA \\ (A^T)^T = A\\ (AB)^T = B^TA^T\\ (A+B)^T =A^T+B^T$
矩阵求导
1. $f:Rm×n→Rf:R^{m \times n} \rightarrow R$
  $(\bigtriangledown_Af(A))_{ij} = \frac{\partial f(A)}{\partial A_{ij}}\\ \bigtriangledown_Af(A) \in R_{mn}$
  $e . g . :$ $f:RM→Rf:R_M \rightarrow R$ and $f(z) = z^Tz$
  - 此时 $▽zf(z)=2z\bigtriangledown_zf(z)=2z$ 把 $z$ 当做变量
  - 但是另外一种情况是 $▽f(Ax)\bigtriangledown f(Ax)$ 如果看做一个整体时，同上即 $2 A x$ ,而如果单独对于 $x$ 并不满足上面的矩阵对应关系，此时应该是 $▽f(Ax)=▽xg(x)∈Rn\bigtriangledown f(Ax) =\bigtriangledown_xg(x) \in R^n$ 实际造成不同的原因是变量不同。
2. 二次项平方项
  1. $\in R^{n}$ and $f(x) = b^Tx$ and $\in R^{n}$ and $\sum_{i=1}^nb_ix_i$
    
    此时 $▽xf(x)=b\bigtriangledown_xf(x) = b$
  2. $f(x) = x^TAx$ for $\in S^n$
    
    此时 $▽xf(x)=2Ax\bigtriangledown_xf(x) =2 Ax$
  3. 常用
  $\bigtriangledown_xb^Tx = b\\ \bigtriangledown_xx^TAx = 2Ax\\ \bigtriangledown_x^2x^TAx = A(if A issymmetric )\\ A^T = A$
3. 最小平方项
  $||Ax-b||^2_2 = （Ax-b）^T(Ax-b)=\\ x^TA^TAx-2b^TAx+b^Tb \\ \bigtriangledown_x = 2A^TAx-2A^Tb$
矩阵的迹：
1. $trA=∑i=1nAiitrA=\sum_{i=1}^nA_{ii}$
2. 当 $\in R^{n \times n}$ 时，满足一些线性性质
矩阵的秩
1. for $\in R^{m \times n},rank(A) <= min{(m,n)}$ ,if $rank(A)=min{(m,n)}$ ,then it is full rank
求逆
1. $A^{-1}A=I=AA^{-1}$
2. 没有逆矩阵的情况：
  1. 不是方阵
  2. 不是满秩（full rank）
特征值求解：
补充求导:

线性模型复习

基本模型
$f(\mathbf{x}) =\mathbf{w}^T \mathbf{x} +b$
其中 $x$ 表示 $x_1;x_2;x_3;......x_d)$ ， $w$ 表示 $w_1,w_2,w_3......w_d)$ ， $b$ 是一个常数

线性回归

属性只有一个的时候

假设模型如上 $w,b\mathbf{w},b$ 为待定参数
构建目标函数：均方误差
求解：最小二乘法
$(w^*,b^*) = argmin_{w,b}\sum_{i=1}^n(f(x_i)-y_i)^2$
求导（前提是目标函数为凸函数，所以当导数等于零的时候取的最优解）
$\frac{\partial E(w,b)}{\partial w} = 2(w\sum x_i^2-\sum(y_i-b)x_i) \\ \frac{\partial E(w,b)}{\partial b} = 2(mb-\sum(y_i-wx_i) \\ w = \frac{\sum y_i(x_i-\bar{x})}{\sum x_i^2-\frac{1}{m}(\sum x_i^2)^2} \\ b= \frac{1}{m}\sum (y_i-wx_i)$

多属性时：（多元线性回归）

数据说明：
1. $w^=(w;b)\hat{\mathbf{w}}=(\mathbf{w};b)$ 把b引入，更好计算，此时为一个（d+1）维的列向量
2. 数据集： $X\mathbf{X}$

$\begin{matrix} x_{11}&x_{12}&...x_{1d}&1\\ x_{21}&x_{22}&...x_{2d}&1\\ ...&...&...&1\\ x_{m1}&x_{m2}&...x_{md}&1\\ \end{matrix} = \begin{matrix} \mathbf{x_1^T}&1\\ \mathbf{x_2^T}&1\\ ...&1\\ \mathbf{x_m^T}&1\\ \end{matrix}$

此时
$y=Xw^ \mathbf{y}=\mathbf{X}\hat{\mathbf{w}}$
而对于单独的一个 $y=(y1;y2,...ym)\mathbf{y} =(y_1;y_2,...y_m)$
$y_i =f(\mathbf{x}) =\mathbf{w}^T \mathbf{x} +b$

$E(w^)=(y−Xw^)T(y−Xw^) E(\hat{\mathbf{w}})= (\mathbf{y}-\mathbf{X}\hat{\mathbf{w}})^T(\mathbf{y}-\mathbf{X}\hat{\mathbf{w}})$

求导
$∂E∂w=2XT(y−Xw^)w^∗=(XTX)−1XTy \frac{\partial E}{\partial \mathbf{w}} =2\mathbf{X}^T(\mathbf{y}-\mathbf{X}\hat{\mathbf{w}}) \\ \mathbf{\hat{w}}^* = (X^TX)^{-1}X^Ty$

tips:若 $X^TX$ 并非列满秩矩阵:引入正则项：
$E=(y−Xw^)T(y−Xw^)+λ∣∣w∣∣2(λ>0)w^∗=(XTX+λI)−1XTy E=(y-X\hat{w})^T(y-X\hat{w})+\lambda ||w||^2\\ (\lambda>0)\\ \mathbf{\hat{w}}^* = (X^TX+\lambda I)^{-1}X^Ty$

得到后的应用：
1. 回归和分类的区别可以理解为，分类为离散，回归为连续，但是同时回归可以作为概率转换为分类。
2. 由上，在二分类问题如果labels(0,1)可以理解为0.5为分界线。划分两类问题。如果标签值不是直接分类的标识，转为线性分类问题。
3. 广义线性模型

$y=g(w^Tx+b) \\ g^{-1}(y)=w^Tx+b$

线性分类

对数几率回归

把线性拟合转化为0-1分类(y表示看做正类的概率)

$y=\frac{1}{1+e^{-z}}$

转为为线性模型（即）

$ln(\frac{y}{1-y})=w^Tx+b$

构建对数似然函数：
1. 概率表示：

$=\frac{e^{w^Tx+b}}{1+e^{w^Tx+b}}$

$=\frac{1}{1+e^{w^Tx+b}}$

对数似然函数：

$l(w,b)=∑i=1nlnp(y=j∣xi,w,b);l(w,b)=\sum_{i=1}^n lnp(y=j|x_i,w,b);$
$p(y=j|x_i,w,b)=y_ip(y_i=1|x_i,w,b)+(1-y_i)y(y_i=0|x_i,w,b)$

$l(w,b)=∑i=1n[yi(wTxi+b)−ln(1+ewTxi+b)]l(w,b)=\sum_{i=1}^n[y_i(w^Tx_i+b)-ln(1+e^{w^Tx_i+b})]$

凸优化，梯度下降法：
$w^{t+1}=w^t-\lambda\triangle w=w^t-\lambda \frac{\partial l}{\partial w} |_{w=w^t,b=b^t} \\ b^{t+1}=b^t-\lambda\triangle b=b^t-\lambda \frac{\partial l}{\partial b} |_{w=w^t,b=b^t}\\ \frac{\partial l}{\partial w}=-\sum[x_iy_i-x_ip(y_i=1|x_i,w,b)]\\ \frac{\partial l}{\partial b}=-\sum[y_i-p(y_i=1|x_i,w,b)]$
```
    while step < max_step:
        dw = np.zeros(sample_dim,float)
        db = 0.0
        step +=1

        for i in range(sample_num):
            xi,yi = train_sample[i],train_label[i]

            pi = 1 - 1/(1+np.exp(np.dot(w,xi)+b))
            dw +=(xi*yi - xi*pi)
            db +=(yi - pi)
        dw =-dw
        db =-db
        w -= learning_rate*dw
        b -= learning_rate*db
    self.w =w
    self.b =b
```
分类:判断哪个概率大即是哪个类

线性判别分析（LDA）

核心思想：同类尽可能近，异类尽可能远（监督降维算法-投影到直线）

数据集 $(xi,y)i=1n{(\mathbf{x_i},y)}_{i=1}^n$ 二分类问题
投影前的每一类的均值&协方差矩阵：

$\mathbf{u_0}=\frac{1}{n_0}\sum_{y_i=0}x_i\\ \Sigma_0 = \frac{1}{n_0-1}\sum_{y_i=0}x_ix_i^T\\$

投影后：(投影到直线均为实数)

$u0^=wTu0Σ0^=wTΣ1w \hat{u_0}=w^Tu_0\\ \hat{\Sigma_0}=w^T\Sigma_1w$

最大化目标函数：

$J=\frac{w^TS_bw}{w^TS_ww}\\ S_w=\Sigma_0+\Sigma_1 \\ S_b=(u_0-u_1)(u_0-u_1)^T \\$

等价表示：
$-w^TS_bw\\ s.t. w^TS_ww=1\\ L=-w^TS_bw+\lambda(w^TS_ww-1)\\ \frac{\partial L}{\partial w} \\ w^*=S_{w}^{-1}(u_0-u_1)$

支持向量机

线性可分问题

划分超平面：

$w^Tx+b=0$

最大化间隔即
$max_{w,b}\frac{2}{||w||}\\ s.t.y_i(w^Tx_i+b)>=1$
等效于
$min_{w,b}\frac{1}{2}{||w||}^2\\ s.t.y_i(w^Tx_i+b)>=1$
是一个凸优化问题

对偶问题（求解）:

拉格朗日函数

$L=\frac{1}{2}{||w||}^2-\sum_{i=1}^n\alpha(y_i(w^Tx_i+b)-1)$

求偏导为零

$w=\sum\alpha_iy_ix_i,\sum\alpha_iy_i=0$

回代：

$min_{\alpha}\frac{1}{2}\sum_{i=1}^n\sum_{j=1}^n\alpha_i\alpha_jy_iy_jx_i^Tx_j-\sum\alpha_i\\ s.t.\sum\alpha_iy_i=0,\alpha_i>=0$

对偶问题求解（SMO）:

选取一对需要更新的 $αi,αj\alpha_i,\alpha_j$
固定除了上面以为的参数求解
- 仅考虑选定的参数：约束变为
$\alpha_iy_i+\alpha_jy_j =-\sum_{k\neq i,j}\alpha_ky_k$
- 此时两个等式，一个单变量的二次规划，具有闭式解。（舍弃负数）
求b:支持向量方程 $y_if(x_i)=1$

最终判定： $y=sign[f(x_i)]$

非线性可分问题

引入松弛变量

$min_{w,b}\frac{1}{2}{||w||}^2+C\sum\xi_i\\ s.t.y_i(w^Tx_i+b)>=1-\xi_i\\ \xi_i\geq0$

类似上面
特征映射
- 原始问题
$min_{w,b}\frac{1}{2}{||w||}^2\\ s.t.y_i(w^T\Phi (x_i)+b)>=1$
- 对偶问题

$min_{\alpha}\frac{1}{2}\sum_{i=1}^n\sum_{j=1}^n\alpha_i\alpha_jy_iy_j\Phi (x_i)^T\Phi (x_j)-\sum\alpha_i\\ s.t.\sum\alpha_iy_i=0,\alpha_i>=0$

核函数

因为 $w=∑αiyixi,w=\sum\alpha_iy_ix_i,$ 代入即最终
$f(x)=\sum\alpha_iy_i\Phi(x_i)^T\Phi(x)+b$
定义核函数 $k:Rd×Rd→R,k(x,y)=Φ(x)TΦ(y)k:R^d\times R^d \rightarrow R,k(x,y)=\Phi(x)^T\Phi(y)$
- 对称
- 半正定
核矩阵：核函数的采样矩阵。