logistic 回归

原创于 2018-05-22 23:15:40 发布 · 372 阅读

·

1

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

优化算法专栏收录该内容

7 篇文章

订阅专栏

logistic 回归

如何用线性模型做分类任务？

只需要在广义线性模型 (1) 中找一个单调可微函数将线性回归的值与分类任务的真实标签 $y$ 联系起来。

\begin{matrix} (1) & y = g (w^{T} x + b) \end{matrix}

$y=g(w^Tx+b) \tag{1}$
其中，

g(⋅)g(⋅) $g(\cdot)$ 称为 link function

考虑二分类任务，其输出标签 $y\in\{0,1\}$ ，而线性回归模型产生的预测值 $z=w^Tx+b$ 是实值，于是，需要将实值 $z$ 转换为 $0/1$ 值。最理想的单位阶跃函数 (unit-step function, Heaviside function)。

y = ⎧ ⎩ ⎨ 0 0.5 1 z < 0 z = 0 z > 0

$y=\begin{cases} 0& z\lt0\\ 0.5& z=0 \\ 1 & z\gt 0 \end{cases}$
即若预测值

zz $z$ 大于零就判为正例，小于零则判为负例，预测值为临界值零则可以任意判断。

但单位阶跃函数不连续，因此不能直接用作 $g(\cdot)$ ，于是希望找到能在一定程度上近似单位阶跃函数的替代函数 ，并希望它单调可微。对数几率函数 (logistic function)正是这样一个常用的替代函数：

y = 1 1 + e - z (2)

$y=\frac{1}{1+e^{-z}} \tag{2}$
对数几率函数是一种Sigmoid function ，它将

zz $z$ 值转化为一个接近0或1的

y

$y$ 值，并且其输出值在

z=0z=0 $z=0$ 附近变化很陡。将对数几率函数 (2) 带入 (1) 得到：

y = 1 1 + e - ( w T x + b ) (3)

$y=\frac{1}{1+e^{-(w^Tx+b)}} \tag{3}$
通过化简可得：

log y 1 - y = w T x + b (4)

$\log \frac{y}{1-y}=w^Tx+b \tag{4}$
若将

yy $y$ 视为样本

x

$x$ 作为正例的可能性，则

1−y1−y $1-y$ 是其反例的可能性，两者的比值

y1−yy1−y $\frac{y}{1-y}$ 称为几率 (odds)，反应了

xx $x$ 作为正例的相对可能性，对几率取对数则得到 对数几率 (log odds，亦称logit)：

\begin{matrix} (5) & \log \frac{y}{1 - y} \end{matrix}

$\log\frac{y}{1-y} \tag{5}$
由此可以看出，(5) 实际上是在用线性回归模型的预测结果去逼近真实标签的对数几率，因此，其对应的模型称为 对数几率回归 (logistic regression)。特别需要注意到，虽然它的名字是”回归”，但实际确实一种分类学习方法。

这种方法有很多优点，例如：

它是直接对分类可能性进行建模，无需事先假设数据分布，这样就避免了假设分布不准确所带来的问题。
它不是仅预测出”类别”，而是可以得到近似概率的预测，这对许多需利用概率辅助决策的任务很有用。
对数几率函数是任意阶可导的凸函数，有很好的数学性质，现有的很多数值优化算法都可以直接用于求解最优解。

若将 (4) 中的 $y$ 视为类的后验概率估计 $p(y=1|x)$ ，因此有：

log p ( y = 1 | x ) p ( y = 0 | x ) = w T x + b

$\log\frac{p(y=1|x)}{p(y=0|x)}=w^Tx+b$
注意到

p(y=0|x)+p(y=1|x)=1p(y=0|x)+p(y=1|x)=1 $p(y=0|x)+p(y=1|x)=1$ ，可以得到：

p (y = 1 | x) = e w T x + b 1 + e w T x + b p (y = 0 | x) = 1 1 + e w T x + b

$p(y=1|x)=\frac{e^{w^Tx+b}}{1+e^{w^Tx+b}} \\ p(y=0|x)=\frac{1}{1+e^{w^Tx+b}}$
因此，

yy $y$ 概率密度函数为：

p (y | x, w, b) = p (y = 1 | x)^{y} p (y = 0 | x)^{1 - y}

$p(y|x,w,b)=p(y=1|x)^yp(y=0|x)^{1-y}$
于是，可以通过 极大似然估计 (MLP) 来估计

w,bw,b $w,b$ 。

似然函数为：

L (w, b) = \prod i = 1 n p (y i = 1 | x i) y i p (y i = 0 | x) 1 - y i

$L(w,b)=\prod_{i=1}^np(y_i=1|x_i)^{y_i}p(y_i=0|x)^{1-y_i}$
对数似然函数为：

= = l (w, b) = log L (w, b) \sum i = 1 n y i log p (y i = 1 | x i) + (1 - y i) log p (y i = 0 | x) \sum i = 1 n (y i (w T x i + b) - log (1 + e w T x i + b))

$\begin{eqnarray*} &&l(w,b)=\log L(w,b) \\ &=&\sum_{i=1}^n y_i\log p(y_i=1|x_i)+(1-y_i)\log p(y_i=0|x) \\ &=& \sum_{i=1}^n \bigg(y_i(w^Tx_i+b)-\log(1+e^{w^Tx_i+b}) \bigg) \end{eqnarray*}$
于是对应的优化问题是为：

min w, b \sum i = 1 n (- y i (w T x i + b) + log (1 + e w T x i + b)) (6)

$\min_{w,b} \sum_{i=1}^n \bigg(-y_i(w^Tx_i+b)+\log(1+e^{w^Tx_i+b}) \bigg) \tag{6}$
优化问题 (6) 是关于

w,bw,b $w,b$ 的高阶可导的凸优化问题，根据凸优化理论，经典的数值优化算法如梯度下降，牛顿法等都可以求得其最优解。

评论 1

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

查看更多评论

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。