逻辑回归简介（Logistic Regression）-优快云博客

本文链接：https://blog.youkuaiyun.com/kprights/article/details/145644202

Logistic Regression

逻辑回归（Logistic Regression，简称 LR）虽然名为 “回归”，但实际上是一个分类问题。它主要用于二分类，通过逻辑函数 ——Sigmoid 函数来实现。显然，Sigmoid 函数的值域在 (0, 1) 之间。通常，以 0.5 作为阈值，当函数值低于 0.5 时，将观察到的输入集分类为 “0” 类，反之则为 “1” 类。Sigmoid 函数呈现出典型的 S 形曲线。
在这里插入图片描述
逻辑回归分类器旨在从输入训练数据的特征中学习一个二分类模型。该模型将输入特征的线性组合作为变量，即 $\theta_0+\theta_1x_1+,\ldots,+\theta_nx_n= \sum_{i=1}^n \theta_ix_i$ ，其中 $x_0$ 始终为 1。我们也可以将其表示为 $\theta^Tx$ 。将其代入 Sigmoid 函数，得到如下预测模型：
$h_\theta(x)=g(\theta^Tx)=\frac{1}{1+e^{-\theta^Tx}}$

逻辑回归最终将组合变量映射到 (0, 1) 区间，以确定输入特征所属的类别。
为了训练这样一个逻辑模型，我们需要构建一个合理的损失函数。但在此之前，我们首先定义类别（0 或 1）的概率如下：
$\begin{equation} \begin{aligned}&P(y=1\mid x;\theta)=h_\theta(x)\\&P(y=1\mid 0;\theta)=1-h_\theta(x)\end{aligned}\end{equation}$

这意味着对于一组表示为 $x_i$ 的输入特征及其相应的标签，在 $x_i$ 条件下 $y_i = 1$ 的概率为 $p_i$ ，因此 $y_i = 0$ 的概率为 $1-p_i$ 。因此，我们可以将这两种情况结合起来，得到一个统一的概率函数：
$P(y)\mid x;\theta)=(h_\theta(x))^y(1-h_\theta(x))^{1-y}$

此外，对于 m 个输入特征 $x_1, x_2, ...... , x_m$ ，联合概率就是在每个 $x_i$ 条件下 $y_i$ 的概率的乘积，如下所示：
$L(\theta)=\prod_{i=1}^{m}{P=(y_i\mid x_i;\theta)}=\prod_{i=1}^{m}(h_\theta(x_i))^{y_i}(1-h_\theta(x_i))^{1-y_i}$

逻辑回归（LR）的目的是获得一组最优的参数集 $\theta$ ，使得 $L(\theta)$ 达到最大值。其取对数形式，得到 $l(\theta)$ 如下：
$l(\theta)=\log{L(\theta)}=\sum_{i=1}^m \Big(y_i\log h_\theta(x_i)+(1-y_i)\log \big(1-h_\theta(x_i)\big)\Big)$

如果我们将 $l(\theta)$ 视为损失函数，训练逻辑回归问题应该使用梯度上升的方式，因为 $l(\theta)$ 越大越好。如果我们想要最小化损失函数（以符合主流的机器学习训练方法），可以简单地使用其负数，即 $J(\theta)=-\frac{1}{m}*l(\theta)$ ，并且可以使用梯度下降来进行参数优化： $\theta_j:=\theta_j-\alpha\frac{\delta}{\delta_{\theta_j}}J(\theta)$
其中:
$\begin{aligned}&\frac{\delta}{\delta_{\theta_j}}J(\theta)=-\frac{1}{m}\sum_{i=1}^m \Big(y_i\frac{1}{h_\theta(x_i)}\frac{\delta} {\delta_{\theta_j}}h_\theta(x_i)-(1-y_i)\frac{1}{1-h_\theta(x_i)}\frac{\delta}{\delta_{\theta_j}}h_\theta(x_i)\Big)\\&=-\frac{1}{m}\sum_{i=1}^m \Big(y_i\frac{1}{g(\theta^Tx_i)})-(1-y_i)\frac{1}{1-g(\theta^Tx_i)}\Big) \frac{\delta}{\delta_{\theta_j}}g(\theta^Tx_i)\\&=-\frac{1}{m}\sum_{i=1}^m \Big(y_i\frac{1}{g(\theta^Tx_i)})-(1-y_i)\frac{1}{1-g(\theta^Tx_i)}\Big) g(\theta^Tx_i)\big(1-g(\theta^Tx_i)\big)\frac{\delta}{\delta_{\theta_j}}\theta^Tx_i\\ &=-\frac{1}{m}\sum_{i=1}^m \Big(y_i\big(1-g(\theta^Tx_i)\big)-(1-y_i)g(\theta^Tx_i)\Big)x_i^j\\&=-\frac{1}{m}\sum_{i=1}^m\Big(y_i-g(\theta^Tx_i)\Big)x_i^j\\&=-\frac{1}{m}\sum_{i=1}^m\Big(h_\theta(x_i)-y_i)\Big)x_i^j \end{aligned}$

Vectorization

参数优化过程可以进行向量化，这在全同态加密（FHE）中非常重要。我们可以使用以下过程进行向量化：
首先，我们将 m 个输入向量重新构造成针对每个观测特征的更细粒度的特征矩阵，输出类别 $y$ 和参数集 $\theta$ 也类似处理：
在这里插入图片描述每个特征 $x_i$ 和参数集 $\theta$ 的线性组合可以表示为矩阵 - 向量乘法。得到的矩阵 $A$ 作为 Sigmoid 函数 $g$ 的输入：

$E$ 是观测标签 $y$ （0 或 1）与通过 Sigmoid 函数根据 $x$ 得到的预测概率之间的误差（或损失）。因此，最终的优化过程如下所示：
$\theta_j:=\theta_j-\alpha\frac{1}{m}\sum_{i=1}^m\big(h_\theta(x_i)-y_i)\big)x_i^j=\theta_j-\alpha\frac{1}{m}\sum_{i=1}^me_ix_i^j=\theta_j-\alpha\frac{1}{m}x^{jT}E$