《机器学习》阅读笔记（三）_最优解的闭式解如何求-优快云博客

本文链接：https://blog.youkuaiyun.com/ziuno/article/details/100859216

《机器学习》阅读笔记（三）

3 线性模型(linear model)

3.1 基本形式

设
1. $d$ ：属性个数
2. $\boldsymbol{x}=(x_1;x_2;\dots;x_d)$ ： $x_i$ 是 $\boldsymbol{x}$ 在第 $i$ 个属性上的取值
3. $\boldsymbol{w}=(w_1;w_2;\dots;w_d)$
表现形式
1. 线性模型 $f(\boldsymbol{x})=w_1x_1+w_2x_2+\dots+w_dx_d+b$
2. 向量形式 $f(\boldsymbol{x})=\boldsymbol{w}^\mathrm{T}\boldsymbol{x}+b$

3.2 线性回归(linear regression)

给定
1. $D=\{(\boldsymbol{x}_1,y_1),(\boldsymbol{x}_2,y_2),\dots,(\boldsymbol{x}_m,y_m)\}$ ：数据集
2. $\boldsymbol{x}_i=(x_{i1};x_{i2};\dots;x_{id})$
3. $y_i\in \mathbb{R}$

属性个数	1	$d$ （多元线性回归(multivariate linear regression)）
试图学得	$f(x_i)=wx_i+b，使得f(x_i)\simeq y_i$	$f(\boldsymbol{x}_i)=\boldsymbol{w}^\mathrm{T}\boldsymbol{x}_i+b，使得f(\boldsymbol{x}_i)\simeq y_i$
性能度量	均方误差（欧式距离） $(w^,b^)=\mathop{\arg\min}\limits_{(w,b)}\sum\limits^m_{i=1}(f(x_i)-y_i)^2\\=\mathop{\arg\min}\limits_{(w,b)}\sum\limits^m_{i=1}(y_i-w_ix_i-b)^2$	令 1. $\hat{\boldsymbol{w}}=(\boldsymbol{w};b)$ 2. $\mathbf{X}$ ：表示数据集 $D$ ，大小为 $m\times (d+1)$ 的矩阵 $\mathbf{X}=\left(\begin{matrix}x_{11} & x_{12}&\dots & x_{1d} & 1\\x_{21} & x_{22} & \dots & x_{2d} & 1\\\vdots & \vdots &\ddots &\vdots &\vdots\\x_{m1} &x_{m2}&\dots &x_{md} &1\end{matrix}\right)=\left(\begin{matrix}\boldsymbol{x}_1^{\mathrm{T}} &1\\\boldsymbol{x}^\mathrm{T}_2 &1\\\vdots & \vdots\\\boldsymbol{x}^\mathrm{T}_m & 1\end{matrix} \right)$ 3. $\boldsymbol{y}=(y_1;y_2;\dots;y_m)$ 则 $\hat{\boldsymbol{w}}^*=\mathop{\arg\min}\limits_{\hat{\boldsymbol{w}}}(\boldsymbol{y}-\mathbf{X}\hat{\boldsymbol{w}})^\mathrm{T}(\boldsymbol{y}-\mathbf{X}\hat{\boldsymbol{w}})$
均方误差	$E_{(w,b)}=\sum^m_{i=1}(y_i-w_ix_i-b)$	$E_{\hat{\boldsymbol{w}}}=(\boldsymbol{y}-\mathbf{X}\hat{\boldsymbol{w}})^{\mathrm{T}}(\boldsymbol{y}-\mathbf{X}\hat{\boldsymbol{w}})$
求导	$\frac{\partial E_{(w,b)}}{\partial w}=2\Bigg(w\sum\limits^m_{i=1}x_i^2-\sum\limits^m_{i=1}(y_i-b)x_i\Bigg)$ $\frac{\partial E_{(w,b)}}{\partial b}=2\Bigg(mb-\sum\limits^m_{i=1}(y_i-wx_i)\Bigg)$	$\frac{\partial E_{\hat{\boldsymbol{w}}}}{\partial \hat{\boldsymbol{w}}}=2\mathbf{X}^{\mathrm{T}}(\mathbf{X}\hat{\boldsymbol{w}}-\boldsymbol{y})$
令偏导为0 求得最优解的闭式解	$w=\frac{\sum\limits^m_{i=1}y_i(x_i-\overline{x})}{\sum\limits^m_{i=1}x_i^2-\frac{1}m\Big(\sum\limits^m_{i=1}x_i\Big)^2}$ $b=\frac{1}{m}\sum\limits^m_{i=1}(y_i-wx_i)$ 其中 $\overline{x}=\frac{1}{m}\sum\limits^m_{i=1}x_i$	（当 $\mathbf{X}^{\mathrm{T}}\mathbf{X}$ 为满秩矩阵或正定矩阵时） $\hat{\boldsymbol{w}}^*=(\mathbf{X}^{\mathrm{T}}\mathbf{X})^{-1}\mathbf{X}^{\mathrm{T}}\boldsymbol{y}$
模型	$f(x_i)=x_i^\mathrm{T}w+b$	令 $\hat{\boldsymbol{x}}_i=(\boldsymbol{x}_i;1)$ ，则 $f(\hat{\boldsymbol{x}}_i)=\hat{\boldsymbol{x}}_i^{\mathrm{T}}(\mathbf{X}^{\mathrm{T}}\mathbf{X})^{-1}\mathbf{X}^{\mathrm{T}}\boldsymbol{y}$

名称	模型	注
线性回归模型	$y=\boldsymbol{w}^{\mathrm{T}}\boldsymbol{x}+b$	-
对数线性回归	$\ln y=\boldsymbol{w}^{\mathrm{T}}\boldsymbol{x}+b$	-
广义线性模型	$y=g^{-1}(\boldsymbol{w}^{\mathrm{T}}\boldsymbol{x}+b)$	$g(\cdot)$ ：“联系函数”(link function)（单调可微函数）

3.3 对数几率回归(logistic function)

函数	名称	描述
$y=\frac{1}{1+e^{-z}}$	对数几率回归（对率回归）	一种“Sigmoid函数”
$y=\frac{1}{1+e^{-(\boldsymbol{w}^{\mathrm{T}}\boldsymbol{x}+b)}}$	-	-
$\ln\frac{y}{1-y}=\boldsymbol{w}^{\mathrm{T}}\boldsymbol{x}+b$	几率(odds)	若将 $y$ 视为样本 $\boldsymbol{x}$ 作为正例的可能性，则 $1 - y$ 是其反例的可能性。反映了 $\boldsymbol{x}$ 作为正例的相对可能性
$\ln\frac{y}{1-y}$	对数几率(log odds,logit)	对几率取对数

若将 $y$ 视为类后验概率估计 $p(y=1|\boldsymbol{x})$ ，则公式可重写为
$\ln\frac{p(y=1|\boldsymbol{x})}{p(y=0|\boldsymbol{x})}=\boldsymbol{w}^{\mathrm{T}}\boldsymbol{x}+b\Rightarrow\left\{\begin{matrix}p(y=1|\boldsymbol{x})=\frac{e^{\boldsymbol{w}^{\mathrm{T}}\boldsymbol{x}+b}}{1+e^{\boldsymbol{w}^{\mathrm{T}}\boldsymbol{x}+b}}\\p(y=0|\boldsymbol{x})=\frac{1}{1+e^{\boldsymbol{w}^{\mathrm{T}}\boldsymbol{x}+b}}\end{matrix} \right.$
极大似然估计 $\rightarrow$ 估计 $\boldsymbol{w}$ 和 $b$
1. 数据集： $\{(\boldsymbol{x}_i,y_i)\}^m_{i=1}$
2. 对率回归模型最大化“对数似然” $\ell(\boldsymbol{w},b)=\sum\limits^m_{i=1}\ln p(y_i|\boldsymbol{x}_i;\boldsymbol{w},b)$
3. 令
  1. $\boldsymbol{\beta}=(\boldsymbol{w};b)$
  2. $\hat{\boldsymbol{x}}=(\boldsymbol{x};1)$
4. 则 $\boldsymbol{w}^{\mathrm{T}}\boldsymbol{x}+b=\boldsymbol{\beta}^\mathrm{T}\hat{\boldsymbol{x}}$
1. 再令
  1. $p_1(\hat{\boldsymbol{x}};\boldsymbol{\beta})=p(y_i=1|\hat{\boldsymbol{x}};\boldsymbol{\beta})$
  2. $p_0(\hat{\boldsymbol{x}};\boldsymbol{\beta})=p(y_i=0|\hat{\boldsymbol{x}};\boldsymbol{\beta})=1-p_1(\hat{\boldsymbol{x}};\boldsymbol{\beta})$
2. 则 $p(y_i|\boldsymbol{x}_i;\boldsymbol{w},b)=y_ip_1(\hat{\boldsymbol{x}_i};\boldsymbol{\beta})+(1-y_i)p_0(\hat{\boldsymbol{x}}_i;\boldsymbol{\beta})$ $\ell(\boldsymbol{\beta})=\sum\limits^m_{i=1}\Big[\ln \big(y_ie^{\boldsymbol{\beta}^\mathrm{T}\hat{\boldsymbol{x}}_i}+(1-y_i)\big)-\ln(1+e^{\boldsymbol{\beta}^\mathrm{T}\hat{\boldsymbol{x}}_i})\Big]$
3. 考虑 $y_i\in\{0,1\}$ ，等价于最小化 $\ell(\boldsymbol{\beta})=\sum\limits^m_{i=1}\big( -y_i\boldsymbol{\beta}^\mathrm{T}\hat{\boldsymbol{x}}_i+\ln(1+e^{\boldsymbol{\beta}^\mathrm{T}\hat{\boldsymbol{x}}_i})\big)$
4. 求最优解（梯度下降法、牛顿法） $\boldsymbol{\beta}^*=\mathop{\arg\min}\limits_\boldsymbol{\beta}\ell(\boldsymbol{\beta})$

3.4 线性判别分析(Linear Discriminant Analysis,LDA)

二分类问题
思想：
1. 训练：给定数据集例集，设法将样例投影到一条直线上，使得
  1. 同类样例的投影点尽可能接近
  2. 异类样例的投影点尽可能远离
2. 预测：在对新样本分类时，将其投影到同样的这条直线上，再根据投影点的位置来确定新样本的类别

分类	二分类	多分类
记	1. $D=\{(\boldsymbol{x}_i,y_i)\}^m_{i=1}$ 2. $y_i\in\{0,1\}$ 3. $X_i$ 、 $\boldsymbol{\mu}_i$ 、 $\boldsymbol{\Sigma}_i$ ：第 $i\in\{0,1\}$ 类示例的集合、均值向量、协方差矩阵 4. 直线 $\boldsymbol{w}$	-
得	1. $\boldsymbol{w}^\mathrm{T}\boldsymbol{\mu}_0$ 、 $\boldsymbol{w}^\mathrm{T}\boldsymbol{\mu}_1$ ：两类样本的中心在直线上的投影 2. $\boldsymbol{w}^\mathrm{T}\boldsymbol{\Sigma}_0\boldsymbol{w}$ 、 $\boldsymbol{w}^\mathrm{T}\boldsymbol{\Sigma}_1\boldsymbol{w}$ ：两类样本的协方差	-
目标	同类样例投影点协方差尽可能小 $\rightarrow\boldsymbol{w}^\mathrm{T}\boldsymbol{\Sigma}_0\boldsymbol{w}+\boldsymbol{w}^\mathrm{T}\boldsymbol{\Sigma}_1\boldsymbol{w}$ 尽可能小异类样例类中心之间距离尽可能大 $\rightarrow\\|\boldsymbol{w}^\mathrm{T}\boldsymbol{\mu}_0-\boldsymbol{w}^\mathrm{T}\boldsymbol{\mu}_1\\|^2_2$ 尽可能大	-
最大化目标	$J=\frac{\\|\boldsymbol{w}^\mathrm{T}\boldsymbol{\mu}_0-\boldsymbol{w}^\mathrm{T}\boldsymbol{\mu}_1\\|^2_2}{\boldsymbol{w}^\mathrm{T}\boldsymbol{\Sigma}_0\boldsymbol{w}+\boldsymbol{w}^\mathrm{T}\boldsymbol{\Sigma}_1\boldsymbol{w}}=\frac{\boldsymbol{w}^\mathrm{T}(\boldsymbol{\mu}_0-\boldsymbol{\mu}_1)(\boldsymbol{\mu}_0-\boldsymbol{\mu}_1)^\mathrm{T}\boldsymbol{w}}{\boldsymbol{w}^\mathrm{T}(\boldsymbol{\Sigma}_0+\boldsymbol{\Sigma}_1)\boldsymbol{w}}$	-
定义	类内散度矩阵： $\mathbf{S}_\boldsymbol{w}=\boldsymbol{\Sigma}_0+\boldsymbol{\Sigma}_1\\=\sum\limits_{\boldsymbol{x}\in X_0}(\boldsymbol{x}-\boldsymbol{\mu}_0)(\boldsymbol{x}-\boldsymbol{\mu}_0)^\mathrm{T}+\sum\limits_{\boldsymbol{x}\in X_1}(\boldsymbol{x}-\boldsymbol{\mu}_1)(\boldsymbol{x}-\boldsymbol{\mu}_1)^\mathrm{T}$ 类间散度矩阵： $\mathbf{S}_b=(\boldsymbol{\mu}_0-\boldsymbol{\mu}_1)(\boldsymbol{\mu}_0-\boldsymbol{\mu}_1)^\mathrm{T}$	全局散度矩阵： $\mathbf{S}_t=\mathbf{S}_b+\mathbf{S}_w\\=\sum\limits^m_{i=1}(\boldsymbol{x}_i-\boldsymbol{\mu})(\boldsymbol{x}_i-\boldsymbol{\mu})^\mathrm{T}$ 类内散度矩阵： $\mathbf{S}_w=\sum\limits^N_{i=1}\mathbf{S}_{w_i}$ 类间散度矩阵： $\mathbf{S}_b=\mathbf{S}_t-\mathbf{S}_w\\=\sum\limits^N_{i=1}m_i(\boldsymbol{\mu}_i-\boldsymbol{\mu})(\boldsymbol{\mu}_i-\boldsymbol{\mu})^\mathrm{T}$
则	$J=\frac{\boldsymbol{w}^\mathrm{T}\mathbf{S}_b\boldsymbol{w}}{\boldsymbol{w}^\mathrm{T}\mathbf{S}_\boldsymbol{w}\boldsymbol{w}}$ 即LDA最大化的目标： $\mathbf{S}_b$ 与 $\mathbf{S}_\boldsymbol{w}$ 的“广义瑞利商”(generalized Rayleigh quotient) 解只与 $\boldsymbol{w}$ 的方向有关（若 $\boldsymbol{w}$ 是一个解，则对于任意常数 $\alpha$ ， $\alpha\boldsymbol{w}$ 也是解）	-
过程	令 $\boldsymbol{w}^\mathrm{T}\mathbf{S}_\boldsymbol{w}\boldsymbol{w}=1$ 则 $\min\limits_\boldsymbol{w} -\boldsymbol{w}^\mathrm{T}\mathbf{S}_b\boldsymbol{w} \\\mathrm{s.t.}\quad\boldsymbol{w}^\mathrm{T}\mathbf{S}_\boldsymbol{w}\boldsymbol{w}=1$	$\max\limits_\mathbf{W}\frac{\mathrm{tr}(\mathbf{W}^\mathrm{T}\mathbf{S}_b\mathbf{W})}{\mathrm{tr}(\mathbf{W}^\mathrm{T}\mathbf{S}_w\mathbf{W})}$ $\mathbf{W}\in\mathbb{R}^{d\times (N-1)}$
解得	$\boldsymbol{w}=\mathrm{S}^{-1}_\boldsymbol{w}(\boldsymbol{\mu}_0-\boldsymbol{\mu}_1)$	$\mathbf{W}$ 的闭式解是 $\mathbf{S}^{-1}_w\mathbf{S}_b$ 的 $d^{'}$ 个最大非零广义特征值所对应的特征向量组成的矩阵 ( $d'\leqslant N-1$ )

LDA：常被视为一种经典的监督降维技术( $d'\ll d$ )

3.5 多分类学习

关键：对多分类任务进行拆分，以及如何对多个分类器进行集成。
给定
1. $D=\{(\boldsymbol{x}_1,y_1),(\boldsymbol{x}_2,y_2),\dots,(\boldsymbol{x}_m,y_m)\}$
2. $y_i\in\{C_1,C_2,\dots,C_N\}$

拆分策略	en	分类器	分类器个数	测试
一对一	One vs. one,OvO	将 $N$ 个类别两两配对（为区分类别 $C_i$ 和 $C_j$ 训练一个分类器，该分类器把 $D$ 中的 $C_i$ 类样例作为正例， $C_j$ 类样例作为反例）	${N\choose 2}$	新样本同时提交所有分类器，最终结果可通过投票产生：即把被预测得最多的类别作为最终分类结果
一对其余	One vs. Rest,OvR	每次将一个类的样例作为正例、所有其他类的样例作为反例	$N$	1.仅有一个分类器预测为正类，则对应的类别标记作为最终分类结果 2.多个分类器预测为正类，则通常考虑各分类器的预测置信度，选择置信度最大的类别标记作为分类结果
多对多	Many vs. many,MvM	纠错输出码(ECOC)	-	-

ECOC	二元码	三元码
类别	正类(+1)+反类(-1)	正类(+1)+反类(-1)+停用类(0)
解码	各分类器的预测结果联合起来形成了测试示例的编码，该编码与各类所对应的编码进行比较，将距离（欧式距离或海明距离等）最小的编码所对应的类别作为预测结果	（同左）