交叉熵损失函数整理

本文深入探讨了交叉熵函数的推导与直观理解,对比了Sigmoid+Cross-entropy与SoftMax+Cross-entropy的不同形式,解析了交叉熵在多分类问题中的应用,并讨论了其优缺点。此外,还解释了为何逻辑回归中使用交叉熵而非均方误差。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

一.交叉熵函数的由来(推导)

1.1普通推导交叉熵 :

我们一共有m组已知样本, ( x ( i ) , y ( i ) ) (x^{(i)},y^{(i)}) (x(i),y(i))表示第i组数据及其对应的类别标记,
其中 x ( i ) = ( 1 , x 1 i , x 2 i , x 3 i … x p i ) x^{(i)} = (1, x^{i}_1,x^{i}_2,x^{i}_3…x^{i}_p) x(i)=(1,x1i,x2i,x3ixpi), y ( i ) y^{(i)} y(i)则为表示类别的一个数:

  1. logistic回归(二分类问题)中 y ( i ) y(i) y(i)取0或者1;
  2. softmax回归 (多分类问题)中 y ( i ) y(i) y(i)取1,2…k中的一个表示类别标号的一个数(假设共有k类)
    在这里插入图片描述
    在这里插入图片描述
    以上来自交叉熵代价函数(损失函数)及其求导推导 (Logistic Regression)

1.2极大似然推导交叉熵:

在这里插入图片描述

二.交叉熵函数直观理解

单个样本的交叉熵损失函数(注意这里是用单个样本做例子,因此公式里没有 Σ \Sigma Σ
L o s s = − [ y l o g y ^ + ( 1 − y ) l o g ( 1 − y ^ ) ] Loss = - [ylogŷ + (1-y)log(1-ŷ)] Loss=[ylogy^+(1y)log(1

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值