logistic回归2—损失函数

最新推荐文章于 2024-07-22 10:08:20 发布

weixin_43484614

最新推荐文章于 2024-07-22 10:08:20 发布

阅读量881

点赞数 22

文章标签：机器学习人工智能

本文链接：https://blog.youkuaiyun.com/weixin_43484614/article/details/104459873

版权

分类任务定义

$\bullet$ 给定训练数据 $D=\{{\mathbf x_{i}, y_{i}}\}_{i=1}^N$ ，其中N为训练样本的数目，i为样本索引， $\mathbf x_{i}$ 为第i个样本的输入特征， $y_{i}$ 为对应的输出/响应， $y_{i} \in \sigma，\sigma=\{1,...,C\}$ 。注意这里用的符号sigma，PPT用的其实不是sigma，没找到那个符号的写法。
$\bullet$ 分类：根据训练样本D，学习一个从输入x到输出y的映射f。
$\bullet$ 对新的测试数据x，用学习到的f对其进行预测： $\hat y = f(x)$ 。

分类任务的损失函数

$\bullet$ 0/1损失：预测类别正确损失为0，否则为1，记为 $\hat y) = \begin{cases}\\0 \space\space\space y=\hat y \\1 \space\space\space y \neq \hat y \end{cases}$ 但0/1损失不连续，优化计算不方便。
$\bullet$ 寻找其他替代损失函数(Surrogate Loss Function)，通常是凸函数，计算方便面，且和0/1损失是一致的。
$\bullet$ 回归中用的L2损失可以吗？L2损失，对应评价指标MSE，不是一种很好的损失，若 $\hat y$ 能限制在比较小的范围内还好，否则就不是一个能很好的替代0/1损失的函数，如果要用，勉强也还可以。我还是不懂为何说L2不是很合适。
在这里插入图片描述

Logistic损失

$\bullet$ Logistic回归模型： $y|\mathbf x$ ~ $Bernoulli(\mu(x))$
$p(y|\mathbf x;\mu(x)) = \mu(x)^y(1-\mu(x))^{1-y}$ $\mu(x) = \sigma(\mathbf w^T\mathbf x)$
$\bullet$ Log似然损失为：
$\zeta(\mu) = logp(D) = log\prod_{i=1}^{N}p(y_{i}|\mathbf x_{i}) = \sum_{i=1}^{N}logp(y_{i}|\mathbf x_{i})$ $=\sum_{i=1}^{N}log(\mu(\mathbf x_{i})^{y_{i}}(1-\mu(\mathbf x_{i}))^{1-y_{i}})$ $=\sum_{i=1}^{N}(log(\mu(\mathbf x_{i}))^{y_{i}} + log((1-\mu(\mathbf x_{i})))^{1-y_{i}})$ $=\sum_{i=1}^{N}y_{i}log\mu(x_{i})+(1-y_{i})log(1-\mu(\mathbf x_{i}))$ $\sum$ 之后可以不用括号，只要是带索引的，就自动成为 $\sum$ 作用的范围。
$\bullet$ 定义负log似然损失为： $\mu(\mathbf x)) = ylog\mu(\mathbf x)+(1-y)log(1-\mu(\mathbf x))$ 本篇Logistic回归及之前的线性回归，都是通过概率分布+似然函数推导出目标函数，但Logistic回归继续将目标函数分解成各样本的损失函数，而线性回归处没有，其损失函数是直接提出来的，没有进行推导。当然这些都是课程里讲解的内容，可能并不代表该算法里就没有推导这个过程。
$\bullet$ Logistic损失亦被称为交叉熵损失(Cross Entropy Loss)不太懂，主要是下面这张PPT。
在这里插入图片描述