机器学习笔记第三章线性模型_【机器学习笔记】第三章:线性模型-优快云博客

本文链接：https://blog.youkuaiyun.com/qq_53034510/article/details/140609648

3.1 基本形式

线性模型试图学得一个通过属性得线性组合来进行预测的函数。

向量形式

3.2 线性回归

3.2.1 一元线性回归

给定数据集 $D=\left \{ (x_{1},y_{1}),(x_{2},y_{2}),...,(x_{m},y_{m}) \right \}$ ，其中 $x_{i}=(x_{i1};x_{i2};...;x_{id})$ ， $y_{i}\in R$ 。“线性回归”试图学得一个线性模型以尽可能准确地预测实值输出标记。

离散属性的处理：若有“序”，则连续化；否则，转化为k维向量。令均方误差最小化，则有：

分别对 $w$ 和 $b$ 求偏导：

令导数为0，得到闭式解：

3.2.2 多元线性回归

更一般的情形是数据集D，样本由d个属性描述，此时我们试图学得：

这称为“多元线性回归”。

把 $w$ 和 $b$ 吸收入向量形式 $\hat{w}=(w;b)$ 数据集表示为

同样采用最小二乘法求解，有：

令其为零可得 $\hat{w}$ 。

$\square$ 若 $X^{T}X$ 满秩或正定，则 $\hat{w}^{*}=(X^{T}X)^{-1}X^{T}y$ ；

$\square$ 若 $X^{T}X$ 不满秩，则可解出多个 $\hat{w}$ 。

此时需求助于归纳偏好，或引入正则化。

3.2.3 线性模型的变化

对于样例 $(x,y)$ ， $y\in R$ ，希望线性模型的预测值逼近真实标记，则得到线性回归模型

若令 $lny=w^{T}x+b$ ，则得到对数线性回归，实际上是在用 $e^{w^{T}x+b}$ 逼近 $y$ 。

3.3 对数几率回归

3.3.1 二分类任务

线性回归模型产生的实值输出 $z=w^{T}x+b$ ，期望输出 $y\in \left \{ 0,1 \right \}$ ，最理想的是“单位阶跃函数” $y=\begin{cases} 0, & \text{ if } z<0; \\ 0.5& \text{ if } z=0; \\ 1& \text{ if } z>0, \end{cases}$

即若预测值z大于零就判为正例，小于零则判为反例，预测值为临界值零则可任意判别，如图：

单位阶跃函数不连续，需要找“替代函数”，常用单调可谓、任意阶可导的函数，即对数几率函数：

整理得

其中， $\frac{y}{1-y}$ 称为“几率”，反映了x作为正例的相对可能性，对几率取对数得到“对数几率”。以上式子实际上是用线性回归模型的预测结果去逼近真实标记的对数几率，因此，其对应的模型称为“对数几率回归”。

下面我们来看看如何确定w和b。若将y视为类后概率估计 $p(y=1|x)$ ，则

于是，可使用“极大似然法”来估计w和b。给定数据集 $\left \{ (x_{i},y_{i}) \right \}_{i=1}^{m}$ ，最大化“对数似然”为

令 $\beta =(w;b),\hat{x}=(x;1)$ ，则 $w^{T}x+b$ 可简写为 $\beta ^{T}\hat{x}$ ，再令

则似然项可重写为

最大化式等价为

高阶可导连续凸函数，可用经典的数值优化方法如梯度下降、牛顿法等都可以求得最优解。于是就得到

以牛顿法为例，其第t+1轮迭代解的更新公式为

其中关于 $\beta$ 的一阶、二阶导数分别为

3.4 线性判别分析

线性判别分析（简称LDA）是一种经典的线性学习方法，LDA的思想非常朴素，给定训练样例集，设法将样例投影到一条直线上，设法将样例投影到一条直线上，使得同类样例的投影点尽可能接近、异类样例的投影点尽可能远离；在对新样本进行分类时，将其投影到同样的这条直线上，再根据投影点的位置来确定新样本的类别。

给定数据集 $\left \{ (x_{i},y_{i}) \right \}_{i=1}^{m}$ ，第i类示例的集合 $X_{i}$ ，第i类示例的均值向量 $\mu _{i}$ ，第i类示例的协方差矩阵 $\sum_{i}^{}$ ，两类样本的中心在直线上的投影： $w^{T}\mu _{0}$ 和 $w^{T}\mu _{1}$ ，两类样本的协方差： $w^{T}\sum _{0}w$ 和 $w^{T}\sum _{1}w$ 。同类样例的投影点尽可能接近，即 $w^{T}\sum _{0}w+w^{T}\sum _{1}w$ 尽可能小；异类样例的投影点尽可能远离，即 $\left \| w^{T}\mu _{0}-w^{T}\mu _{1} \right \|_{2}^{2}$ 尽可能大。于是，最大化

类内散度矩阵

类间散度矩阵

可重写为

令 $w^{T}S_{w}w=1$ 最大化广义瑞利商等价形式为

运用拉格朗日乘子法，有 $S_{b}w=\lambda S_{w}w$ ，由 $S_{b}$ 定义，有 $S_{b}w=(\mu _{0}-\mu _{1})(\mu _{0}-\mu _{1})^{T}w$ 。注意到 $(\mu _{0}-\mu _{1})^{T}w$ 标量，令其等于 $\lambda$ ，于是 $w=S_{w}^{-1}(\mu _{0}-\mu _{1})$

可以将LDA推广到多分类任务中。假定有N个类，则

多分类LDA有多种实现方法，采用 $S_{b},S_{w},S_{t}$ 中的任何两个。

3.5 多分类学习

多分类学习的基本思路是拆解法：将一个多分类拆分为若干个二分类任务求解。

“一对一”（简称OvO）将N个类别两两配对，从而产生 $N(N-1)/2$ 个二分类器，存储开销和测试时间大；训练只用两个类的样例，训练时间短。“一对其余”（简称OvR）则是每次每次将一个类的样例作为正例、所有其他类的样例作为反例来训练N个分类器，训练N个分类器，存储开销和测试时间小；训练用到全部训练样例，训练时间长。