机器学习复习part1

机器学习复习part1

线性代数复习

  1. 表示方法:

    1. (,,,) - 行向量
    2. (;;;) - 列向量
  2. 乘法

  3. 矩阵转置
    AI=A=IA(AT)T=A(AB)T=BTAT(A+B)T=AT+BT AI = A = IA \\ (A^T)^T = A\\ (AB)^T = B^TA^T\\ (A+B)^T =A^T+B^T AI=A=IA(AT)T=A(AB)T=BTAT(A+B)T=AT+BT

  4. 矩阵求导

    1. f:Rm×n→Rf:R^{m \times n} \rightarrow Rf:Rm×nR
      (▽Af(A))ij=∂f(A)∂Aij▽Af(A)∈Rmn (\bigtriangledown_Af(A))_{ij} = \frac{\partial f(A)}{\partial A_{ij}}\\ \bigtriangledown_Af(A) \in R_{mn} (Af(A))ij=Aijf(A)Af(A)Rmn
      e.g.:e.g.:e.g.: f:RM→Rf:R_M \rightarrow Rf:RMR and f(z)=zTzf(z) = z^Tzf(z)=zTz

      • 此时▽zf(z)=2z\bigtriangledown_zf(z)=2zzf(z)=2zzzz 当做变量
      • 但是另外一种情况是▽f(Ax)\bigtriangledown f(Ax)f(Ax) 如果看做一个整体时,同上即2Ax2Ax2Ax,而如果单独对于xxx 并不满足上面的矩阵对应关系,此时应该是▽f(Ax)=▽xg(x)∈Rn\bigtriangledown f(Ax) =\bigtriangledown_xg(x) \in R^nf(Ax)=xg(x)Rn 实际造成不同的原因是变量不同 。
    2. 二次项平方项

      1. x∈Rnx \in R^{n}xRn and f(x)=bTxf(x) = b^Txf(x)=bTx and b∈Rnb \in R^{n}bRn and f(x)=∑i=1nbixif(x) = \sum_{i=1}^nb_ix_if(x)=i=1nbixi

        此时 ▽xf(x)=b\bigtriangledown_xf(x) = bxf(x)=b

      2. f(x)=xTAxf(x) = x^TAxf(x)=xTAx for A∈SnA \in S^nASn

        此时▽xf(x)=2Ax\bigtriangledown_xf(x) =2 Axxf(x)=2Ax

      3. 常用

      ▽xbTx=b▽xxTAx=2Ax▽x2xTAx=A(ifAissymmetric)AT=A \bigtriangledown_xb^Tx = b\\ \bigtriangledown_xx^TAx = 2Ax\\ \bigtriangledown_x^2x^TAx = A(if A issymmetric )\\ A^T = A xbTx=bxxTAx=2Axx2xTAx=A(ifAissymmetric)AT=A

    3. 最小平方项
      ∣∣Ax−b∣∣22=(Ax−b)T(Ax−b)=xTATAx−2bTAx+bTb▽x=2ATAx−2ATb ||Ax-b||^2_2 = (Ax-b)^T(Ax-b)=\\ x^TA^TAx-2b^TAx+b^Tb \\ \bigtriangledown_x = 2A^TAx-2A^Tb Axb22=AxbT(Axb)=xTATAx2bTAx+bTbx=2ATAx2ATb

  5. 矩阵的迹:

    1. trA=∑i=1nAiitrA=\sum_{i=1}^nA_{ii}trA=i=1nAii
    2. A∈Rn×nA \in R^{n \times n}ARn×n时,满足一些线性性质
  6. 矩阵的秩

    1. for A∈Rm×n,rank(A)&lt;=min(m,n)A \in R^{m \times n},rank(A) &lt;= min{(m,n)}ARm×n,rank(A)<=min(m,n),if rank(A)=min(m,n)rank(A)=min{(m,n)}rank(A)=min(m,n),then it is full rank
  7. 求逆

    1. A−1A=I=AA−1A^{-1}A=I=AA^{-1}A1A=I=AA1
    2. 没有逆矩阵的情况:
      1. 不是方阵
      2. 不是满秩(full rank)
  8. 特征值求解:

  9. 补充求导:

img

img

img

img


线性模型复习

基本模型
f(x)=wTx+b f(\mathbf{x}) =\mathbf{w}^T \mathbf{x} +b f(x)=wTx+b
其中xxx 表示(x1;x2;x3;......xd)(x_1;x_2;x_3;......x_d)(x1;x2;x3;......xd)www 表示(w1,w2,w3......wd)(w_1,w_2,w_3......w_d)(w1,w2,w3......wd)bbb 是一个常数

线性回归

  • 属性只有一个的时候
  1. 假设模型如上w,b\mathbf{w},bw,b 为待定参数

  2. 构建目标函数:均方误差

  3. 求解:最小二乘法
    (w∗,b∗)=argminw,b∑i=1n(f(xi)−yi)2 (w^*,b^*) = argmin_{w,b}\sum_{i=1}^n(f(x_i)-y_i)^2 (w,b)=argminw,bi=1n(f(xi)yi)2
    求导(前提是目标函数为凸函数,所以当导数等于零的时候取的最优解)
    ∂E(w,b)∂w=2(w∑xi2−∑(yi−b)xi)∂E(w,b)∂b=2(mb−∑(yi−wxi)w=∑yi(xi−xˉ)∑xi2−1m(∑xi2)2b=1m∑(yi−wxi) \frac{\partial E(w,b)}{\partial w} = 2(w\sum x_i^2-\sum(y_i-b)x_i) \\ \frac{\partial E(w,b)}{\partial b} = 2(mb-\sum(y_i-wx_i) \\ w = \frac{\sum y_i(x_i-\bar{x})}{\sum x_i^2-\frac{1}{m}(\sum x_i^2)^2} \\ b= \frac{1}{m}\sum (y_i-wx_i) wE(w,b)=2(wxi2(yib)xi)bE(w,b)=2(mb(yiwxi)w=xi2m1(xi2)2yi(xixˉ)b=m1(yiwxi)

  • 多属性时:(多元线性回归)
  1. 数据说明:

    1. w^=(w;b)\hat{\mathbf{w}}=(\mathbf{w};b)w^=(w;b) 把b引入,更好计算,此时为一个(d+1)维的列向量

    2. 数据集:X\mathbf{X}X

x11x12...x1d1x21x22...x2d1.........1xm1xm2...xmd1=x1T1x2T1...1xmT1 \begin{matrix} x_{11}&amp;x_{12}&amp;...x_{1d}&amp;1\\ x_{21}&amp;x_{22}&amp;...x_{2d}&amp;1\\ ...&amp;...&amp;...&amp;1\\ x_{m1}&amp;x_{m2}&amp;...x_{md}&amp;1\\ \end{matrix} = \begin{matrix} \mathbf{x_1^T}&amp;1\\ \mathbf{x_2^T}&amp;1\\ ...&amp;1\\ \mathbf{x_m^T}&amp;1\\ \end{matrix} x11x21...xm1x12x22...xm2...x1d...x2d......xmd1111=x1Tx2T...xmT1111

  1. 此时
    y=Xw^ \mathbf{y}=\mathbf{X}\hat{\mathbf{w}} y=Xw^
    而对于单独的一个y=(y1;y2,...ym)\mathbf{y} =(y_1;y_2,...y_m)y=(y1;y2,...ym)
    yi=f(x)=wTx+b y_i =f(\mathbf{x}) =\mathbf{w}^T \mathbf{x} +b yi=f(x)=wTx+b

E(w^)=(y−Xw^)T(y−Xw^) E(\hat{\mathbf{w}})= (\mathbf{y}-\mathbf{X}\hat{\mathbf{w}})^T(\mathbf{y}-\mathbf{X}\hat{\mathbf{w}}) E(w^)=(yXw^)T(yXw^)

​ 求导
∂E∂w=2XT(y−Xw^)w^∗=(XTX)−1XTy \frac{\partial E}{\partial \mathbf{w}} =2\mathbf{X}^T(\mathbf{y}-\mathbf{X}\hat{\mathbf{w}}) \\ \mathbf{\hat{w}}^* = (X^TX)^{-1}X^Ty wE=2XT(yXw^)w^=(XTX)1XTy

​ tips:若XTXX^TXXTX并非列满秩矩阵:引入正则项:
E=(y−Xw^)T(y−Xw^)+λ∣∣w∣∣2(λ&gt;0)w^∗=(XTX+λI)−1XTy E=(y-X\hat{w})^T(y-X\hat{w})+\lambda ||w||^2\\ (\lambda&gt;0)\\ \mathbf{\hat{w}}^* = (X^TX+\lambda I)^{-1}X^Ty E=(yXw^)T(yXw^)+λw2(λ>0)w^=(XTX+λI)1XTy

  1. 得到后的应用:
    1. 回归和分类的区别可以理解为,分类为离散,回归为连续,但是同时回归可以作为概率转换为分类。
    2. 由上,在二分类问题如果labels(0,1)可以理解为0.5为分界线。划分两类问题。如果标签值不是直接分类的标识,转为线性分类问题。
    3. 广义线性模型

y=g(wTx+b)g−1(y)=wTx+b y=g(w^Tx+b) \\ g^{-1}(y)=w^Tx+b y=g(wTx+b)g1(y)=wTx+b

线性分类


对数几率回归
  1. 把线性拟合转化为0-1分类(y表示看做正类的概率)

y=11+e−z y=\frac{1}{1+e^{-z}} y=1+ez1

  1. 转为为线性模型(即)

ln(y1−y)=wTx+b ln(\frac{y}{1-y})=w^Tx+b ln(1yy)=wTx+b

  1. 构建对数似然函数:

    1. 概率表示:

p(y=1∣x)=ewTx+b1+ewTx+bp(y=1|x) =\frac{e^{w^Tx+b}}{1+e^{w^Tx+b}}p(y=1x)=1+ewTx+bewTx+b

p(y=0∣x)=11+ewTx+bp(y=0|x) =\frac{1}{1+e^{w^Tx+b}}p(y=0x)=1+ewTx+b1

  1. 对数似然函数:

l(w,b)=∑i=1nlnp(y=j∣xi,w,b);l(w,b)=\sum_{i=1}^n lnp(y=j|x_i,w,b);l(w,b)=i=1nlnp(y=jxi,w,b);
p(y=j∣xi,w,b)=yip(yi=1∣xi,w,b)+(1−yi)y(yi=0∣xi,w,b)p(y=j|x_i,w,b)=y_ip(y_i=1|x_i,w,b)+(1-y_i)y(y_i=0|x_i,w,b)p(y=jxi,w,b)=yip(yi=1xi,w,b)+(1yi)y(yi=0xi,w,b)

l(w,b)=∑i=1n[yi(wTxi+b)−ln(1+ewTxi+b)]l(w,b)=\sum_{i=1}^n[y_i(w^Tx_i+b)-ln(1+e^{w^Tx_i+b})]l(w,b)=i=1n[yi(wTxi+b)ln(1+ewTxi+b)]

  1. 凸优化,梯度下降法:
    wt+1=wt−λ△w=wt−λ∂l∂w∣w=wt,b=btbt+1=bt−λ△b=bt−λ∂l∂b∣w=wt,b=bt∂l∂w=−∑[xiyi−xip(yi=1∣xi,w,b)]∂l∂b=−∑[yi−p(yi=1∣xi,w,b)] w^{t+1}=w^t-\lambda\triangle w=w^t-\lambda \frac{\partial l}{\partial w} |_{w=w^t,b=b^t} \\ b^{t+1}=b^t-\lambda\triangle b=b^t-\lambda \frac{\partial l}{\partial b} |_{w=w^t,b=b^t}\\ \frac{\partial l}{\partial w}=-\sum[x_iy_i-x_ip(y_i=1|x_i,w,b)]\\ \frac{\partial l}{\partial b}=-\sum[y_i-p(y_i=1|x_i,w,b)] wt+1=wtλw=wtλwlw=wt,b=btbt+1=btλb=btλblw=wt,b=btwl=[xiyixip(yi=1xi,w,b)]bl=[yip(yi=1xi,w,b)]

        while step < max_step:
            dw = np.zeros(sample_dim,float)
            db = 0.0
            step +=1
    
            for i in range(sample_num):
                xi,yi = train_sample[i],train_label[i]
    
                pi = 1 - 1/(1+np.exp(np.dot(w,xi)+b))
                dw +=(xi*yi - xi*pi)
                db +=(yi - pi)
            dw =-dw
            db =-db
            w -= learning_rate*dw
            b -= learning_rate*db
        self.w =w
        self.b =b
  2. 分类:判断哪个概率大即是哪个类

线性判别分析(LDA)

核心思想:同类尽可能近,异类尽可能远(监督降维算法-投影到直线)

  1. 数据集(xi,y)i=1n{(\mathbf{x_i},y)}_{i=1}^n(xi,y)i=1n 二分类问题
  2. 投影前的每一类的均值&协方差矩阵:

u0=1n0∑yi=0xiΣ0=1n0−1∑yi=0xixiT \mathbf{u_0}=\frac{1}{n_0}\sum_{y_i=0}x_i\\ \Sigma_0 = \frac{1}{n_0-1}\sum_{y_i=0}x_ix_i^T\\ u0=n01yi=0xiΣ0=n011yi=0xixiT

  1. 投影后:(投影到直线均为实数)

u0^=wTu0Σ0^=wTΣ1w \hat{u_0}=w^Tu_0\\ \hat{\Sigma_0}=w^T\Sigma_1w u0^=wTu0Σ0^=wTΣ1w

  1. 最大化目标函数:

J=wTSbwwTSwwSw=Σ0+Σ1Sb=(u0−u1)(u0−u1)T J=\frac{w^TS_bw}{w^TS_ww}\\ S_w=\Sigma_0+\Sigma_1 \\ S_b=(u_0-u_1)(u_0-u_1)^T \\ J=wTSwwwTSbwSw=Σ0+Σ1Sb=(u0u1)(u0u1)T

​ 等价表示:
min−wTSbws.t.wTSww=1L=−wTSbw+λ(wTSww−1)∂L∂ww∗=Sw−1(u0−u1) min -w^TS_bw\\ s.t. w^TS_ww=1\\ L=-w^TS_bw+\lambda(w^TS_ww-1)\\ \frac{\partial L}{\partial w} \\ w^*=S_{w}^{-1}(u_0-u_1) minwTSbws.t.wTSww=1L=wTSbw+λ(wTSww1)wLw=Sw1(u0u1)

支持向量机

线性可分问题

  1. 划分超平面:

wTx+b=0 w^Tx+b=0 wTx+b=0

​ 最大化间隔即
maxw,b2∣∣w∣∣s.t.yi(wTxi+b)&gt;=1 max_{w,b}\frac{2}{||w||}\\ s.t.y_i(w^Tx_i+b)&gt;=1 maxw,bw2s.t.yi(wTxi+b)>=1
​ 等效于
minw,b12∣∣w∣∣2s.t.yi(wTxi+b)&gt;=1 min_{w,b}\frac{1}{2}{||w||}^2\\ s.t.y_i(w^Tx_i+b)&gt;=1 minw,b21w2s.t.yi(wTxi+b)>=1
​ 是一个凸优化问题

  1. 对偶问题(求解):
  • 拉格朗日函数

L=12∣∣w∣∣2−∑i=1nα(yi(wTxi+b)−1) L=\frac{1}{2}{||w||}^2-\sum_{i=1}^n\alpha(y_i(w^Tx_i+b)-1) L=21w2i=1nα(yi(wTxi+b)1)

  • 求偏导为零

w=∑αiyixi,∑αiyi=0 w=\sum\alpha_iy_ix_i,\sum\alpha_iy_i=0 w=αiyixi,αiyi=0

  • 回代:

minα12∑i=1n∑j=1nαiαjyiyjxiTxj−∑αis.t.∑αiyi=0,αi&gt;=0 min_{\alpha}\frac{1}{2}\sum_{i=1}^n\sum_{j=1}^n\alpha_i\alpha_jy_iy_jx_i^Tx_j-\sum\alpha_i\\ s.t.\sum\alpha_iy_i=0,\alpha_i&gt;=0 minα21i=1nj=1nαiαjyiyjxiTxjαis.t.αiyi=0,αi>=0

  1. 对偶问题求解(SMO):
  • 选取一对需要更新的αi,αj\alpha_i,\alpha_jαi,αj

  • 固定除了上面以为的参数求解

    • 仅考虑选定的参数:约束变为

    αiyi+αjyj=−∑k≠i,jαkyk \alpha_iy_i+\alpha_jy_j =-\sum_{k\neq i,j}\alpha_ky_k αiyi+αjyj=k̸=i,jαkyk

    • 此时两个等式,一个单变量的二次规划,具有闭式解。(舍弃负数)
  • 求b:支持向量方程yif(xi)=1y_if(x_i)=1yif(xi)=1

  1. 最终判定:y=sign[f(xi)]y=sign[f(x_i)]y=sign[f(xi)]

非线性可分问题

  1. 引入松弛变量

minw,b12∣∣w∣∣2+C∑ξis.t.yi(wTxi+b)&gt;=1−ξiξi≥0 min_{w,b}\frac{1}{2}{||w||}^2+C\sum\xi_i\\ s.t.y_i(w^Tx_i+b)&gt;=1-\xi_i\\ \xi_i\geq0 minw,b21w2+Cξis.t.yi(wTxi+b)>=1ξiξi0

  1. 类似上面

  2. 特征映射

    • 原始问题

    minw,b12∣∣w∣∣2s.t.yi(wTΦ(xi)+b)&gt;=1 min_{w,b}\frac{1}{2}{||w||}^2\\ s.t.y_i(w^T\Phi (x_i)+b)&gt;=1 minw,b21w2s.t.yi(wTΦ(xi)+b)>=1

    • 对偶问题

minα12∑i=1n∑j=1nαiαjyiyjΦ(xi)TΦ(xj)−∑αis.t.∑αiyi=0,αi&gt;=0 min_{\alpha}\frac{1}{2}\sum_{i=1}^n\sum_{j=1}^n\alpha_i\alpha_jy_iy_j\Phi (x_i)^T\Phi (x_j)-\sum\alpha_i\\ s.t.\sum\alpha_iy_i=0,\alpha_i&gt;=0 minα21i=1nj=1nαiαjyiyjΦ(xi)TΦ(xj)αis.t.αiyi=0,αi>=0

  • 核函数

    ​ 因为w=∑αiyixi,w=\sum\alpha_iy_ix_i,w=αiyixi,代入即最终
    f(x)=∑αiyiΦ(xi)TΦ(x)+b f(x)=\sum\alpha_iy_i\Phi(x_i)^T\Phi(x)+b f(x)=αiyiΦ(xi)TΦ(x)+b
    ​ 定义核函数k:Rd×Rd→R,k(x,y)=Φ(x)TΦ(y)k:R^d\times R^d \rightarrow R,k(x,y)=\Phi(x)^T\Phi(y)k:Rd×RdR,k(x,y)=Φ(x)TΦ(y)

    • 对称
    • 半正定
  • 核矩阵:核函数的采样矩阵。


贝叶斯

基本数学公式(贝叶斯公式)

P(A∣B)=P(A,B)P(B)=P(B∣A)P(A)P(B)=P(B∣A)P(A)P(B∣A)P(A)+P(B∣Aˉ)P(Aˉ) P(A|B)=\frac{P(A,B)}{P(B)}=\frac{P(B|A)P(A)}{P(B)}=\\ \frac{P(B|A)P(A)}{P(B|A)P(A)+P(B|\bar{A})P(\bar{A})} P(AB)=P(B)P(A,B)=P(B)P(BA)P(A)=P(BA)P(A)+P(BAˉ)P(Aˉ)P(BA)P(A)

贝叶斯决策论

最优决策:使风险最小化

R=P(c1∣B)λ21+P(c2∣B)λ12R =P(c_1|B)\lambda_{21}+P(c_2|B)\lambda_{12}R=P(c1B)λ21+P(c2B)λ12

其中P(c1∣B)P(c_1|B)P(c1B)为实际为c1c_1c1的概率 (以下对于0,1损失分类)

1544704969741

  • 极大似然法:

朴素贝叶斯分类器:(假设特征之间互不相关)

  • 连续:一般高斯分布,极大似然法求参数

  • 离散:直接数并计算

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值