Logistic Regression

最新推荐文章于 2025-05-08 14:50:51 发布

原创最新推荐文章于 2025-05-08 14:50:51 发布 · 343 阅读

0 ·

CC 4.0 BY-SA版权

ML整理笔记专栏收录该内容

12 篇文章

订阅专栏

本文详细介绍了逻辑回归这一常见分类算法的基本原理。首先定义了Logistic函数（又称Sigmoid函数），并给出了其数学表达式及导数。接着介绍了模型的假设函数，用于预测数据点属于某个分类的概率，并给出了代价函数的定义，最后解释了梯度下降法如何用于更新模型参数。

一、说明

一个最常见的分类算法.

$m$ : 训练集个数
$n$ : 特征个数
训练集： $\{(\mathbf x^{(1)}, y^{(1)}), ..., (\mathbf x^{(i)}, y^{(i)}), ..., (\mathbf x^{(m)}, y^{(m)})\}$ .
$\mathbf x^{(i)} \in \mathbb R^n, \ \ y^{(i)} \in \{0, 1\}$
模型参数： $\theta = (\theta_0, \theta_1..., \theta_\alpha, ..., \theta_n)$ .
上标 $(i)$ 表示第 $i$ 个数据，下标 $\alpha$ 表示第 $\alpha$ 维特征。

$y$ 的两个取值对应两种不同的分类。这里只说明二分类问题。　　

二、Logistic Function

　又名 Sigmoid Function. 函数定义及其导数：

g (z) g' (z) = 1 1 + e - z, = g (z) (1 - g (z)) .

$\begin{aligned} g(z) & = \frac{1}{1 + \mathrm e^{-z}}, \\ g'(z) & = g(z) ( 1- g(z) ). \end{aligned}$

三、模型训练

Hypothesis Funcition (模型预测值):

y^= g (z) = g (\sum α θ α x α) . (x 0 = 1 是 偏 置 项)

$\hat y = g(z) = g \left( \sum_{\alpha} \theta_\alpha x_\alpha \right). \ \ (x_0 = 1 是偏置项)$

　　其值的意义是数据点 $\mathbf x$ 属于分类 $y = 1$ 的概率。

Cost Function:

J (θ) = - 1 m \sum i = 1 m [y (i) log g (z (i)) + (1 - y (i)) log (1 - g (z (i)))] + λ 2 \sum α = 1 n θ 2 α .

$\begin{aligned} J(\theta) = - \frac{1}{m} \sum_{i = 1}^{m} \left[y^{(i)} \log{g(z^{(i)})} + (1-y^{(i)}) \log{(1-g(z^{(i)}))}\right] + \frac{\lambda}{2} \sum_{\alpha=1}^n \theta_{\alpha}^2. \end{aligned}$

最后一项是正则项，求和中不包含 $\alpha = 0$ 对应的偏置项的参数。所以在下面的梯度中，偏置参数与其他参数的梯度有所不同。

Gradien:

\nabla μ J (θ) = - 1 m \sum i [y (i) g ' ( z ( i ) ) g ( z ) + (1 - y (i)) - g ' ( z ( i ) ) 1 - g ( z ( i ) )] \partial z ( i ) \partial θ μ + λ 2 \partial \partial θ μ \sum α = 1 n θ 2 α = - 1 m \sum i [y (i) (1 - g (z (i))) - (1 - y (i)) g (z (i))] x (i) μ + λ 2 2 θ μ = - 1 m \sum i (y (i) - y^(i)) x (i) μ + λ θ μ

$\nabla_{\mu}J(\theta) = - \frac{1}{m} \sum_{i} \left[ y^{(i)} \frac{ g'(z^{(i)}) }{g(z)} + (1 - y^{(i)}) \frac{ - g'(z^{(i)})}{1- g(z^{(i)})} \right] \frac{\partial z^{(i)}}{\partial \theta_\mu} + \frac{\lambda}{2} \frac{\partial}{\partial \theta_\mu} \sum_{\alpha = 1}^{n} \theta_{\alpha}^2 \\ = - \frac{1}{m} \sum_{i} \left[ y^{(i)} (1 - g(z^{(i)})) - (1 - y^{(i)}) g(z^{(i)}) \right] x^{(i)}_\mu + \frac{\lambda}{2} 2 \theta_\mu \\ = - \frac{1}{m} \sum_{i} \left( y^{(i)} - \hat y^{(i)} \right) x^{(i)}_\mu + \lambda \theta_\mu$

update: