Logistics Regression算法小结

最新推荐文章于 2021-07-25 18:01:28 发布

苏何月下追韩信丶

最新推荐文章于 2021-07-25 18:01:28 发布

阅读量263

点赞数

分类专栏：机器学习笔记

本文链接：https://blog.youkuaiyun.com/u010995990/article/details/107769043

版权

机器学习笔记专栏收录该内容

7 篇文章

订阅专栏

本文总结了Logistic Regression（LR）算法，包括模型原理、梯度下降优化以及为何不使用平方差作为损失函数。LR是分类模型，区别于线性回归，它利用sigmoid函数和交叉熵损失函数，而非线性回归的MSE。通过最大化似然概率，LR确保了模型的表达能力和损失函数的凸性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

当目标变量时分类变量时，常常使用Logistic Regression(LR）算法。

例如：

预测邮件是否为垃圾邮件（是垃圾邮件标记为1，否则为0）
预测肿瘤是否为恶性的（是恶性的为1，否则为0）

模型

LR算法主要利用sigmoid函数，其图像如下：
在这里插入图片描述

模型的输入是 $x_i=(x^1_i,x^2_i,...,x^m_i)$ ， $x_i$ 是一个向量，其具体的计算方法如下：
$\frac{1}{1+e^{-z}}, \quad z = \theta x +b$
其中 $\theta = (\theta_1,\theta_2,...,\theta_m), h(x)$ 就是模型的输出结果。

LR算法的损失函数是：
$\begin{cases} &-log(h(x)), \quad &if \quad y=1 \\ &-log(1-h(x)),\quad &if \quad y=0 \end{cases}$
写在一起就是：
$C o s t (h (x), y) = - y l o g (h (x)) - (1 - y) l o g (1 - h (x))$

那么为什么是这个损失函数呢？

假设，模型预测为1的概率如下（其实也就是将模型的输出概率值作为为1的概率值）：
$\hat{y}$
那么，预测为0的概率也就是：
$1-\hat{y}$

那么可以将他们二者结合写起来就是：
$\hat{y}^y \cdot (1-\hat{y})^{1-y}$
也就是在输入x的情况下，y（y一直指的是真实值）出现的概率。

根据极大似然概率，我们希望他们出现的概率最大。对于有n个样本，那么一般的想法就是把这n个概率连乘，显然连乘容易导致下溢出，所以我们可以对其取对数：
$\begin{aligned} L=&\sum_{i=1}^n \log(\hat{y}^y \cdot (1-\hat{y})^{1-y}) \\ =&\sum_{i=1}^n (y\log \hat{y} +(1-y)\log(1-\hat{y}) \end{aligned}$