二值交叉熵损失函数证明

下面的损失函数是用于图像分类任务,对于单个样本而言,令yyy为样本的期望输出,y^\hat{y}y^为样本的实际输出,那么Logistic回归的损失函数就可以表示为:

L(y^i,yi)=−[yilog(yi^)+(1−yi)log(1−yi^)]L(\hat{y}_{i},y_{i}) = -[{y}_{i}log(\hat{y_{i}})+(1-{y}_{i})log(1-\hat{y_{i}})]L(y^i,yi)=[yilog(yi^)+(1yi)log(1yi^)]
而对于全体样本集的成本函数,就可以表示为:

J(w,b)=1m∑i=1mL(y^i,yi)=−1m∑i=1m[yilog(yi^)+(1−yi)log(1−yi^)]J(w,b) =\frac{1}{m}\sum_{i=1}^{m}L(\hat{y}_{i},y_{i})=-\frac{1}{m}\sum_{i=1}^{m}[{y}_{i}log(\hat{y_{i}})+(1-{y}_{i})log(1-\hat{y_{i}})]J(w,b)=m1i=1mL(y^i,yi)=m1i=1m[yilog(yi^)+(1yi)log(1yi^)]

与损失函数不同的是,它描述了在全体样本集上,模型的参数wwwbbb与优化目标之间的关系,在这两个公式中,成本函数其实是损失函数的平均值。

那么我们先看一下对于损失函数而言,为什么它能发挥作用:

如果期望输出y=1y=1y=1,那么优化目标为min[L(y^i,yi)]=min[−log(yi^)]min[ L(\hat{y}_{i},y_{i})]=min[-log(\hat{y_{i}})]min[L(y^i,yi)]=min[log(yi^)],显然此时yi^\hat{y_{i}}yi^越大,优化目标会得到最小值;
如果期望输出y=0y=0y=0,那么优化目标为min[L(y^i,yi)]=min[−log(1−yi^)]min[ L(\hat{y}_{i},y_{i})]=min[-log(1-\hat{y_{i}})]min[L(y^i,yi)]=min[log(1yi^)],显然此时yi^\hat{y_{i}}yi^越小,优化目标会得到最小值;

下面证明下这个损失函数是怎么来的:
Logistic回归模型如下:
y^=sigmoid(wTx+b)\hat{y}=sigmoid(w^{T}x+b)y^=sigmoid(wTx+b)
sigmoid(z)=11+e−zsigmoid(z)=\frac{1}{1+e^{-z}}sigmoid(z)=1+ez1

那么令y^\hat{y}y^为给定xxx的情况下y=1y=1y=1的概率:
y^=p(y=1∣x)\hat{y}=p(y=1\mid x)y^=p(y=1x)

那么则有:

if:y=1,p(y∣x)=y^if:y=1 , p(y\mid x)=\hat{y}if:y=1,p(yx)=y^
if:y=0,p(y∣x)=1−y^if:y=0 , p(y\mid x)=1-\hat{y}if:y=0,p(yx)=1y^

由于是个二分类问题,yyy的值非1即0,那么合并上式就可得到:
p(y∣x)=y^y(1−y^)(1−y) p(y\mid x) =\hat{y}^{y}(1-\hat{y})^{(1-y)} p(yx)=y^y(1y^)(1y)

同时由于log函数是严格单调递增的函数,在机器学习中,我们往往不太关注log的底数到底是什么,甚至直接省略掉,所以出现了log的写法,但是在数学中这样写是错的。所以,为了后续求解方便,我们可以取对数,于是p(y∣x)p(y\mid x)p(yx)等价于log(p(y∣x))log(p(y\mid x))log(p(yx))
log(p(y∣x))=−[ylog(y^)+(1−y)log(1−y^)]log(p(y\mid x)) = -[ylog(\hat{y})+(1-y)log(1-\hat{y})]log(p(yx))=[ylog(y^)+(1y)log(1y^)]

而对于成本函数来说,他对于整个训练集优化wwwbbb,所以就有了这个上面出现过的式子:

J(w,b)=1m∑i=1mL(y^i,yi)=−1m∑i=1m[yilog(y^)+(1−yi)log(1−y^)]J(w,b) =\frac{1}{m}\sum_{i=1}^{m}L(\hat{y}_{i},y_{i})=-\frac{1}{m}\sum_{i=1}^{m}[{y}_{i}log(\hat{y})+(1-{y}_{i})log(1-\hat{y})]J(w,b)=m1i=1mL(y^i,yi)=m1i=1m[yilog(y^)+(1yi)log(1y^)]

在这里其实是可以用最大似然估计的方法来求这个解的,但是在实际的优化中,我们往往直接使用梯度下降法。
而这个损失函数,其实就是二值交叉熵,是一种交叉熵的特例。

评论 8
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值