文章目录
一.交叉熵函数的由来(推导)
1.1普通推导交叉熵 :
我们一共有m组已知样本, ( x ( i ) , y ( i ) ) (x^{(i)},y^{(i)}) (x(i),y(i))表示第i组数据及其对应的类别标记,
其中 x ( i ) = ( 1 , x 1 i , x 2 i , x 3 i … x p i ) x^{(i)} = (1, x^{i}_1,x^{i}_2,x^{i}_3…x^{i}_p) x(i)=(1,x1i,x2i,x3i…xpi), y ( i ) y^{(i)} y(i)则为表示类别的一个数:
- logistic回归(二分类问题)中, y ( i ) y(i) y(i)取0或者1;
- softmax回归 (多分类问题)中, y ( i ) y(i) y(i)取1,2…k中的一个表示类别标号的一个数(假设共有k类)
以上来自交叉熵代价函数(损失函数)及其求导推导 (Logistic Regression)
1.2极大似然推导交叉熵:
二.交叉熵函数直观理解
单个样本的交叉熵损失函数(注意这里是用单个样本做例子,因此公式里没有 Σ \Sigma Σ):
L o s s = − [ y l o g y ^ + ( 1 − y ) l o g ( 1 − y ^ ) ] Loss = - [ylogŷ + (1-y)log(1-ŷ)] Loss=−[ylogy^+(1−y)log(1