第六章逻辑回归

最新推荐文章于 2024-10-22 06:00:00 发布

原创最新推荐文章于 2024-10-22 06:00:00 发布 · 526 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

统计学习方法专栏收录该内容

12 篇文章

订阅专栏

逻辑回归（Logistic regression）

一. 线性模型

线性模型试图学一个通过d个属性的线性组合来进行预测的函数

f (x) = w 1 x 1 + w 2 x 2 + . . . w d x d + b

$f(x) = w_1x_1+w_2x_2+...w_dx_d+b$

f (x) = w T x + b

$f(x) = w^Tx+b$
参数

w,bw,b $w,b$ 学得之后，模型就得以确定。

线性回归

回归任务的损失函数——平方误差
数据集 $D = {(x_1,y_1),(x_2,y_2),...(x_m,y_m)}$
$x$ 是一元的， $f(x_i) = wx_i+b$

(w *, b *) = arg min w, b \sum i = 1 m (f (x i) - y i) 2

$(w^*, b^*)= \mathop{\arg\min}_{w,b}\sum_{i=1}^m(f(x_i)-y_i)^2$

= arg min w, b \sum i = 1 m (y i - w x i - b) 2

$= \mathop{\arg\min}_{w,b}\sum_{i=1}^m(y_i-wx_i-b)^2$

= arg min w, b E (w, b)

$= \mathop{\arg\min}_{w,b}E_{(w,b)}$
基于平方误差最小化来进行模型的求解的方法称为最小二乘法
对

w,bw,b $w,b$ 求导，令导数为0就得到最优解的闭式解

\partial E ( w , b ) \partial w = 2 (w \sum i = 1 m x 2 i - \sum i = 1 m (y i - b) x i)

$\frac{\partial E(w,b)}{\partial w}=2(w\sum_{i=1}^mx_i^2-\sum_{i=1}^m(y_i-b)x_i)$

\partial E ( w , b ) \partial b = 2 (m b - \sum i = 1 m (y - w x i))

$\frac{\partial E(w,b)}{\partial b}=2(mb-\sum_{i=1}^m(y-wx_i))$
更一般的情况，样本x是由d个属性描述的，此时称为多元线性回归

f (X) = X w = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ x (1) 1 x (1) 2 ⋮ x (1) m x (2) 1 x (2) 2 ⋮ x (2) m \dots \dots ⋱ \dots x (d) 1 x (d) 2 ⋮ x (d) m 111 ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ w 1 w 2 ⋮ w d b ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ \approx y = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ y 1 y 2 ⋮ y m ⎤ ⎦ ⎥ ⎥ ⎥ ⎥

$f(X) = X w= \left[ \begin{matrix} x_1^{(1)} & x_1^{(2)} & \cdots & x_1^{(d)} &1 \\ x_2^{(1)} & x_2^{(2)} & \cdots & x_2^{(d)} &1 \\ \vdots & \vdots & \ddots & \vdots \\ x_m^{(1)} & x_m^{(2)} & \cdots & x_m^{(d)} &1 \\ \end{matrix} \right] \left[ \begin{matrix} w_1 \\ w_2 \\ \vdots \\ w_d \\ b \end{matrix} \right] \approx y= \left[ \begin{matrix} y_1 \\ y_2 \\ \vdots \\ y_m \end{matrix} \right]$
平方误差

w * = arg min w (y - X w) T (y - X w)

$w^* = \mathop{\arg\min}_{w}(y-Xw)^T(y-Xw)$

= arg min w E (w)

$= \mathop{\arg\min}_{w}E_{(w)}$
求导

\partial E ( w ) \partial w = 2 X T (X w - y)

$\frac{\partial E(w)}{\partial w}=2X^T(Xw-y)$
导数为0

2 X T X w = 2 X T y

$2X^TXw=2X^Ty$

XTXXTX $X^TX$ 为满秩矩阵（可逆矩阵）

w * = (X T X) - 1 X T y

$w^* = (X^TX)^{-1}X^Ty$

X 的列数大于行数，则 $X^TX$ 不满秩为什么？？

广义线性模型

线性回归模型

y = w T x + b

$y = w^Tx+b$
对数线性回归模型

l n y = y' = w T x + b

$lny=y^{'} = w^Tx+b$
更一般地，

g(.)g(.) $g(.)$ 单调可微。

y = g - 1 (w T, x + b)

$y=g^{-1}(w^T,x+b)$

二. 逻辑回归（对数几率回归）

逻辑回归是一个分类算法，因为它的原理里面却残留着回归模型的影子。（回归模型+logistic function）
在广义线性模型中我们得到回归模型产生的预测值 $z=w^Tx+b$ ,
对于二分类任务只需要将z映射到 $y \in \{0,1\}$ 。
逻辑回归就是用对数几率函数（logistic function）或者称sigmoid函数

y = 1 1 + e - z = 1 1 + e - ( w T x + b ) = e ( w T x + b ) e ( w T x + b ) + 1

$y = \frac{1}{1+e^{-z}} = \frac{1}{1+e^{-(w^Tx+b)}}=\frac{e^{(w^Tx+b)}}{e^{(w^Tx+b)}+1}$
这里写图片描述

这里写图片描述

预测结果z大于0，判为正例；小于0判为反例。（阶跃函数也可以办得到）
但是logistic function 单调可微，不仅仅预测出类别，还可以得到近似概率。
把

yy $y$ 视为样本作为正例的可能性，则

1 - y

$1-y$ 是其反例的可能性。

P (y = 1 | x) = e ( w T x + b ) e ( w T x + b ) + 1

$P(y=1|x)=\frac{e^{(w^Tx+b)}}{e^{(w^Tx+b)}+1}$

P (y = 0 | x) = 1 e ( w T x + b ) + 1

$P(y=0|x)=\frac{1}{e^{(w^Tx+b)}+1}$
定义对数几率为

l o g P ( y = 1 | x ) P ( y = 0 | x ) = w T x + b

$log\frac{P(y=1|x)}{P(y=0|x)}=w^Tx+b$
对数几率是输入x的线性函数

模型+策略+算法

二元的逻辑回归算法的模型是学习条件概率

P (y = 1 | x) = e ( w T x + b ) e ( w T x + b ) + 1

$P(y=1|x)=\frac{e^{(w^Tx+b)}}{e^{(w^Tx+b)}+1}$

P (y = 0 | x) = 1 e ( w T x + b ) + 1

$P(y=0|x)=\frac{1}{e^{(w^Tx+b)}+1}$
策略：令每个样本属于其真实标记的概率越大越好，（似然函数最大化）
给定数据集

{(xi,yi)}mi=1{(xi,yi)}i=1m $\{(x_i,y_i)\}_{i=1}^m$ , 对数似然函数

l (w, b) = \sum i = 1 m l n p (y i | x i; w, b)

$l(w,b) = \sum_{i=1}^m lnp(y_i|x_i;w,b)$
算法：
为方便表示，

(w,b)(w,b) $(w,b)$ 其实可以表示在一起,见上多元线性回归公式部分

w=(w;b);x=(x,1)w=(w;b);x=(x,1) $w=(w;b);x=(x,1)$
令

P (y = 1 | x) = π (x), P (y = 0 | x) = 1 - π (x)

$P(y=1|x) =\pi(x) ,P(y=0|x) =1-\pi(x)$
则

p (y i | x i; w) = π (x) y i (1 - π (x)) 1 - y i

$p(y_i|x_i;w) = \pi(x)^{y_i}(1-\pi(x))^{1-y_{i}}$
重写对数似然函数

l (w) = \sum i = 1 m l n p (y i | x i; w)

$l(w) = \sum_{i=1}^mlnp(y_i|x_i;w)$

= \sum i = 1 m l n [π (x) y i (1 - π (x)) 1 - y i]

$=\sum_{i=1}^mln[ \pi(x)^{y_i}(1-\pi(x))^{1-y_{i}}]$

= \sum i = 1 m [y i l n π (x i) + (1 - y i) l n (1 - π (x i))]

$= \sum_{i=1}^m[y_iln\pi(x_i)+(1-y_i)ln(1-\pi(x_i))]$

= \sum i = 1 m [y i l n π ( x i ) 1 - π ( x i ) + l n (1 - π (x i))]

$= \sum_{i=1}^m[y_iln\frac{\pi(x_i)}{1-\pi(x_i)}+ln(1-\pi(x_i))]$

= \sum i = 1 m [y i (w T x i) - l n (1 + e w T x i)]

$= \sum_{i=1}^m[y_i(w^Tx_i)-ln(1+e^{w^Tx_i})]$
求梯度

\partial L \partial w = \sum i = 1 m y i x T i - e w T x i 1 + e w T x i x T i

$\frac{\partial L}{\partial w}= \sum_{i=1}^my_ix_i^T-\frac{e^{w^Tx_i}}{1+e^{w^Tx_i}} x_i^T$

= \sum i = 1 m (y i - π (x i)) x T i

$=\sum_{i=1}^m(y_i-\pi(x_i))x_i^T$
更新公式

w = w - η \sum i = 1 m (y i - π (x i)) x T i

$w = w-\eta\sum_{i=1}^m(y_i-\pi(x_i))x_i^T$

梯度下降更新公式。。。收敛得到的解是最优解，因为目标函数是凸的
多项逻辑回归多分类。。。

参考文献
【1】周志华《机器学习》

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。