手推记录-logistic regression （逻辑斯蒂回归）

最新推荐文章于 2021-11-08 21:54:35 发布

原创最新推荐文章于 2021-11-08 21:54:35 发布 · 3.8k 阅读

5 ·

CC 4.0 BY-SA版权

文章标签：

#逻辑斯蒂回归 #线性回归 #logistic #分类 #机器学习

机器学习专栏收录该内容

9 篇文章

订阅专栏

本文深入探讨了线性回归和逻辑斯蒂回归的基本原理，包括目标函数、梯度下降法及局部加权线性回归等内容，并详细解析了这两种算法在实际应用中的参数更新过程。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

先看线性回归

h θ (x) = θ 0 x 0 + θ 1 x 1 + \dots + θ n x n = θ T x

$h_\theta(x)=\theta_0x_0+\theta_1x_1+\cdots+\theta_nx_n=\theta^Tx$

这里的n表示该样本有n维特征。
目标函数

J (θ) = 1 2 \sum i = 1 m (h θ (x (i)) - y (i)) 2

$J(\theta)=\frac{1}{2}\sum_{i=1}^{m}(h_\theta(x^{(i)})-y^{(i)})^2$

这里的i表示第i个样本。
为了求目标函数最小，采用梯度下降迭代,为了方便，假设只有一个样本

\partial \partial θ i J (θ) = \partial \partial θ i 1 2 (h θ (x) - y) 2 = (h θ (x) - y) * \partial \partial θ i (h θ (x) - y) = (h θ (x) - y) * \partial \partial θ i (θ 0 x 0 + θ 1 x 1 + \dots + θ i x i + \dots + θ n x n - y) = (h θ (x) - y) * x i

$\begin{align*} \frac{\partial }{\partial \theta_i}J(\theta)&=\frac{\partial }{\partial \theta_i}\frac{1}{2}(h_\theta(x)-y)^2 \\ &= (h_\theta(x)-y)*\frac{\partial }{\partial \theta_i}(h_\theta(x)-y)\\ &=(h_\theta(x)-y)*\frac{\partial }{\partial \theta_i}(\theta_0x_0+\theta_1x_1+\cdots+\theta_ix_i+\cdots+\theta_nx_n-y)\\ &=(h_\theta(x)-y)*x_i \end{align*}$

参数 $\theta_i$ 更新，

θ i : = θ i - α \partial \partial θ i J (θ) = θ i - α (h θ (x) - y) * x i

$\begin{align*}\theta_i&:=\theta_i-\alpha \frac{\partial }{\partial \theta_i}J(\theta)\\&=\theta_i-\alpha(h_\theta(x)-y)*x_i \end{align*}$

在m个样本的情况下，

θ i : = θ i - α 1 m \sum j = 1 m (h θ (x (j)) - y (j)) * x (j) i

$\begin{align*}\theta_i&:=\theta_i-\alpha\frac{1}{m}\sum_{j=1}^{m}(h_\theta(x^{(j)})-y^{(j)})*x_i^{(j)} \end{align*}$
这样的梯度下降每次更新都需要所有样本，称为批梯度下降。当样本数量多的时候，训练慢。

随机梯度下降法：它的具体思路是在更新每一参数时都使用一个样本来进行更新，

f o r j = 1 θ i t o m : = α (h θ (x (j)) - y (j)) * x (j) i

$\begin{align*} for\; j=1 \;&to\; m :\\ \theta_i&=\alpha(h_\theta(x^{(j)})-y^{(j)})*x_i^{(j)} \end{align*}$

但是随机梯度下降法不能得到最优解，只会在最优解附近徘徊。
局部加权线性回归，将目标函数添加权值修改为，

J (θ) = 1 2 \sum i = 1 m w (i) * (h θ (x (i)) - y (i)) 2

$J(\theta)=\frac{1}{2}\sum_{i=1}^{m} w^{(i)}*(h_\theta(x^{(i)})-y^{(i)})^2$

其中，

w (i) = e x p (- ( x ( i ) - x ) 2 2 τ 2) ， τ 是 波 长 函 数 ， 控 制 权 值 下 降 速 率

$w^{(i)}=exp(-\frac{(x^{(i)}-x)^2}{2 \tau^2})，\tau 是波长函数，控制权值下降速率$

当 $(x^{(i)}-x)$ 很小的时候， $w^{(i)}$ 接近1，反之接近0。也就是说，距离x越近的样本 $x^{(i)}$ 获得的权值越高。

解释一下为什么用误差的平方和作为目标函数，
首先，

y (i) = θ T x (i)

$y^{(i)}= \theta ^T x^{(i)}$

但是由于会有误差，所以还要加上一个误差项，

y (i) = θ T x (i) + ξ i

$y^{(i)}= \theta ^T x^{(i)}+\xi_i$

根据中心极限定理，由于误差项是好多好多相互独立的因素影响的综合影响，我们有理由假设其服从高斯分布，而且均值是0，方差为某个定值 $\delta^2$
因此，概率密度函数为，

P (ξ i) = 1 2 π ‾ ‾ ‾ \sqrt δ e x p (- ξ 2 i 2 δ 2)

$P(\xi_i)=\frac{1}{\sqrt{2 \pi} \delta}exp(-\frac{\xi_i^2}{2 \delta^2})$

也就是，

P (y (i) | x (i); θ) = 1 2 π ‾ ‾ ‾ \sqrt δ e x p (- ( y ( i ) - θ T x ( i ) ) 2 2 δ 2)

$P(y^{(i)}|x^{(i)};\theta)=\frac{1}{\sqrt{2 \pi} \delta}exp(-\frac{(y^{(i)}-\theta^Tx^{(i)})^2}{2 \delta^2})$

在给定一个 $\theta$ ，在 $x^{(i)}$ 的情况下，类别为 $y^{(i)}$ 的概率。
误差项又是相互独立的，那么 $\xi_i$ 似然函数，

L (θ) = p (y | x; θ) = \prod i = 1 m P (y (i) | x (i); θ) = \prod i = 1 m 1 2 π ‾ ‾ ‾ \sqrt δ e x p (- ( y ( i ) - θ T x ( i ) ) 2 2 δ 2)

$\begin{align*} L(\theta)=p(y|x;\theta)&=\prod_{i=1}^{m}P(y^{(i)}|x^{(i)};\theta)\\ &=\prod_{i=1}^{m}\frac{1}{\sqrt{2 \pi} \delta}exp(-\frac{(y^{(i)}-\theta^Tx^{(i)})^2}{2 \delta^2}) \end{align*}$

对数似然，

l o g L (θ) = l o g \prod i = 1 m 1 2 π ‾ ‾ ‾ \sqrt δ e x p (- ( y ( i ) - θ T x ( i ) ) 2 2 δ 2) = m l o g 1 2 π ‾ ‾ ‾ \sqrt δ + \sum i = 1 m - ( y ( i ) - θ T x ( i ) ) 2 2 δ 2

$\begin{align*} log\: L(\theta)&=log\prod_{i=1}^{m}\frac{1}{\sqrt{2 \pi} \delta}exp(-\frac{(y^{(i)}-\theta^Tx^{(i)})^2}{2 \delta^2}) \\ &=m log \frac{1}{\sqrt{2 \pi} \delta } +\sum_{i=1}^{m} -\frac{(y^{(i)}-\theta^Tx^{(i)})^2}{2 \delta^2} \end{align*}$

为了使 $l(\theta)$ 极大，也就是让 $\frac{(y^{(i)}-\theta^Tx^{(i)})^2}{2} =J(\theta)$ 极小，这也就是损失函数。

逻辑斯蒂回归是一个分类算法，以二分类为例， $y \in {\{0,1\}}$ ，有了线性回归的基础，那么逻辑斯蒂回归就是要让 $h_\theta(x)$ 的值在0~1闭区间。即，

h θ (x) = g (h θ (x)) = 1 1 + e - θ T x

$h_\theta(x)=g(h_\theta(x))={\frac{1}{1+e^{-\theta^Tx}}}$

其中 $g$ 函数称为logistic函数，或者sigmoid函数。
y取1的概率等于 $h_\theta(x)$ ,取0的概率为 $1-h_\theta(x)$ ，即，

p (y | x; θ) = h θ (x) y (1 - h θ (x)) 1 - y

$p(y|x;\theta)=h_\theta(x)^y(1-h_\theta(x))^{1-y}$

似然函数，

L (θ) = p (y | x; θ) = \prod i = 1 m P (y (i) | x (i); θ) = \prod i = 1 m h θ (x (i)) y (i) (1 - h θ (x (i))) 1 - y (i)

$\begin{align*} L(\theta)=p(y|x;\theta)&=\prod_{i=1}^{m}P(y^{(i)}|x^{(i)};\theta)\\ &=\prod_{i=1}^{m}h_\theta(x^{(i)})^{y^{(i)}} (1-h_\theta(x^{(i)}))^{1-y^{(i)}} \end{align*}$

对数似然，