如何理解逻辑回归中的损失函数

最新推荐文章于 2024-11-28 13:14:02 发布

原创最新推荐文章于 2024-11-28 13:14:02 发布 · 1k 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#逻辑回归 #机器学习

逻辑回归是一种用于二分类的模型，通过线性模型结合sigmoid函数实现。损失函数J(θ)用于评估模型在训练集上的拟合效果，其公式为J(θ)=−i=1∑m(yi∗log(yθ(xi))+(1−yi)∗log(1−yθ(xi)))，损失越小，拟合越好。求解最优θ通常采用梯度下降，并可通过正则化防止过拟合。

逻辑回归是一种有监督的分类模型，常用于二分类。

线性模型的公式是 $y(x)=θ0+θ1x1+θ2x2+...+θnxny(x)=\theta_0+\theta_1x_1+\theta_2x_2+...+\theta_nx_n$ ，及 $y(x)=θTxy(x)=\theta^Tx$ 。将线性模型带入sigmod函数就是用于二分类的逻辑回归： $y(x)=11+e−θTxy(x)=\frac{1}{1+e^{-\theta^T x}}$ ，这里 $y (x)$ 的取值范围是（0，1），根据某个阈值可以将 $y (x)$ 分为0和1。这里的 $y (x)$ 是模型根据输入特征 $x$ 的预测值，和数据的真实值进行比较可以判断模型预测的准确性。

逻辑回归函数的 $θ\theta$ 需要根据训练数据进行求解， $θ\theta$ 的取值可以决定模型对数据的拟合效果，所以以 $θ\theta$ 为参数的模型在训练集上的预测准确率越大越好。

因此使用损失函数这个评估指标来衡量以 $θ\theta$ 为参数的模型拟合训练集时造成的信息损失的大小，用这个指标来衡量 $θ\theta$ 的优劣。

损失函数大小的含义：损失函数越小，模型在训练集上的拟合效果越好。逻辑回归的损失函数的公式如下：

$J(\theta)=-\sum_{i=1}^{m}(y_i*log(y_{\theta}(x_i))+(1-y_i)*log(1-y_{\theta}(x_i)))$

推导过程：

现在有 $m$ 个样本的数据集，其中一个样本 $i$ 由特征向量 $x_i$ 和真实标签 $y_i$ 组成。和一个由参数 $θ\theta$ 组成的逻辑回归模型

对样本 $i$ 的预测有如下结果：

样本 $i$ 被预测为1的概率： $P1=P(yi^=1∣xi,θ)=yθ(xi)P_1=P(\hat{y_i}=1|x_i,\theta)=y_\theta(x_i)$
样本 $i$ 被预测为0的概率： $P0=P(yi^=0∣xi,θ)=1−yθ(xi)P_0=P(\hat{y_i}=0|x_i,\theta)=1-y_\theta(x_i)$

当 $P_1$ 的值是1时，代表样本被预测为1

当 $P_0$ 的值时1时，代表样本被预测为1

如果假设样本的真实标签是1则

$P_1=1,P_0=0$ 预测真确
$P_1=0,P_0=1$ 预测错误

将这两种情况整合到一个同时可以代表 $P_1,P_0$ 式子中：
$P(yi^∣xi,θ)=P1yi∗P01−yi P(\hat{y_i}|x_i,\theta)=P_1^{y_i}*P_0^{1-y_i}$

如果样本的真实标签是1， $P(yi^∣xi,θ)=P1=1P(\hat{y_i}|x_i,\theta)=P_1=1$
如果样本的真实标签是0， $P(yi^∣xi,θ)=P0=1P(\hat{y_i}|x_i,\theta)=P_0=1$

如果样本的标签值和预测值一样就代表模型的拟合效果好，此时 $P(yi^∣xi,θ)=1P(\hat{y_i}|x_i,\theta)=1$ 但 $P(yi^∣xi,θ)P(\hat{y_i}|x_i,\theta)$ 是对单个样本 $i$ 而言的，对于一个有 $m$ 个样本的训练集而言有 $m$ 个 $P(yi^∣xi,θ)P(\hat{y_i}|x_i,\theta)$
$P=∏i=1mP(yi^∣xi,θ)=∏i=1m(P1yi∗P01−yi)=∏i=1m(yθ(xi)yi∗(1−yθ(xi))1−yi) P=\prod_{i=1}^{m}P(\hat{y_i}|x_i,\theta)\\ = \prod_{i=1}^{m}(P_1^{y_i}*P_0^{1-y_i})\\ =\prod_{i=1}^{m}(y_\theta(x_i)^{y_i}*(1-y_\theta(x_i))^{1-y_i})$
两边同时取对数
$logP=log\prod_{i=1}^{m}(y_\theta(x_i)^{y_i}*(1-y_\theta(x_i))^{1-y_i})\\ =\sum_{i=1}^{m}log(y_\theta(x_i)^{y_i}*(1-y_\theta(x_i))^{1-y_i})\\ =\sum_{i=1}^{m}(logy_\theta(x_i)^{y_i}+log(1-y_\theta(x_i))^{1-y_i})\\ =\sum_{i=1}^{m}(y_ilog(y_\theta(x_i))+(1-y_i)log(1-y_\theta(x_i)))$
得到的就是交叉熵函数，对 $l o g P$ 取负，得到最后的损失函数
$J(\theta)=-\sum_{i=1}^{m}(y_i*log(y_{\theta}(x_i))+(1-y_i)*log(1-y_{\theta}(x_i)))$