【机器学习10】-逻辑回归代价函数

【机器学习10】-逻辑回归代价函数


逻辑回归的代价函数采用交叉熵损失,定义为所有样本损失的均值。该函数是凸函数,保证了优化过程中梯度下降能够收敛到全局最优解,同时它等价于负对数似然函数的均值,使得最小化代价函数等同于最大化数据的似然估计。


1. 核心公式与定义

损失函数(单个样本)
L ( f w , b ( x ( i ) ) , y ( i ) ) = − [ y ( i ) log ⁡ ( f w , b ( x ( i ) ) ) + ( 1 − y ( i ) ) log ⁡ ( 1 − f w , b ( x ( i ) ) ) ] L(f_{w,b}(x^{(i)}), y^{(i)}) = -[y^{(i)} \log(f_{w,b}(x^{(i)})) + (1-y^{(i)}) \log(1-f_{w,b}(x^{(i)}))] L(fw,b(x(i)),y(i))=[y(i)log(fw,b(x(i)))+(1y(i))log(1fw,b(x(i)))]
交叉熵形式:衡量预测概率 f w , b ( x ( i ) ) f_{w,b}(x^{(i)}) fw,b(x(i)) 与真实标签$ y^{(i)}$ 的差异。
特性
◦ 当 y ( i ) = 1 y^{(i)}=1 y(i)=1,损失为 − log ⁡ ( f w , b ( x ( i ) ) ) -\log(f_{w,b}(x^{(i)})) log(fw,b(x(i)))(预测越接近1,损失越小)。
◦ 当 y ( i ) = 0 y^{(i)}=0 y(i)=0,损失为 − log ⁡ ( 1 − f w , b ( x ( i ) ) ) -\log(1-f_{w,b}(x^{(i)})) log(1fw,b(x(i)))(预测越接近0,损失越小)。

在这里插入图片描述

成本函数(全体样本)
J ( w , b ) = 1 m ∑ i = 1 m L ( f w , b ( x ( i ) ) , y ( i ) ) J(w,b) = \frac{1}{m} \sum_{i=1}^{m} L(f_{w,b}(x^{(i)}), y^{(i)}) J(w,b)=m1i=1mL(fw,b(x(i)),y(i))
含义:所有样本损失的平均值,优化目标是最小化 J ( w , b ) J(w,b) J(w,b)


2. 关键性质与推导

凸性(Convexity)
• 图片标注成本函数是凸函数(单全局最小值),保证梯度下降能收敛到最优解。
推导逻辑
1. 逻辑回归的预测函数 f w , b ( x ) = 1 1 + e − ( w T x + b ) f_{w,b}(x) = \frac{1}{1+e^{-(w^Tx + b)}} fw,b(x)=1+e(wTx+b)1(Sigmoid输出)。
2. 交叉熵损失对 ( w ) 的二阶导数为正,故函数凸。

最大似然估计(MLE):“maximum likelihood”
• 成本函数实际是负对数似然的均值,最小化 J ( w , b ) J(w,b) J(w,b) 等价于最大化似然函数。


3. 解题思路(假设题目要求推导或应用成本函数)

问题示例
“推导逻辑回归的成本函数,并解释其凸性意义。”

解答步骤

  1. 定义预测函数
    f w , b ( x ) = σ ( w T x + b ) f_{w,b}(x) = \sigma(w^Tx + b) fw,b(x)=σ(wTx+b),其中 σ ( z ) = 1 1 + e − z \sigma(z) = \frac{1}{1+e^{-z}} σ(z)=1+ez1

  2. 写出似然函数
    L ( w , b ) = ∏ i = 1 m f w , b ( x ( i ) ) y ( i ) ( 1 − f w , b ( x ( i ) ) ) 1 − y ( i ) \mathcal{L}(w,b) = \prod_{i=1}^{m} f_{w,b}(x^{(i)})^{y^{(i)}} (1-f_{w,b}(x^{(i)}))^{1-y^{(i)}} L(w,b)=i=1mfw,b(x(i))y(i)(1fw,b(x(i)))1y(i).

  3. 取负对数似然
    − log ⁡ L ( w , b ) = ∑ i = 1 m − [ y ( i ) log ⁡ f w , b ( x ( i ) ) + ( 1 − y ( i ) ) log ⁡ ( 1 − f w , b ( x ( i ) ) ) ] -\log \mathcal{L}(w,b) = \sum_{i=1}^{m} -[y^{(i)} \log f_{w,b}(x^{(i)}) + (1-y^{(i)}) \log(1-f_{w,b}(x^{(i)}))] logL(w,b)=i=1m[y(i)logfw,b(x(i))+(1y(i))log(1fw,b(x(i)))].

  4. 成本函数
    对似然取均值 J ( w , b ) = 1 m ∑ i = 1 m L ( f w , b ( x ( i ) ) , y ( i ) ) J(w,b) = \frac{1}{m} \sum_{i=1}^{m} L(f_{w,b}(x^{(i)}), y^{(i)}) J(w,b)=m1i=1mL(fw,b(x(i)),y(i)).

  5. 凸性证明
    • 计算Hessian矩阵,证明其半正定性(利用Sigmoid导数 f ′ ( z ) = f ( z ) ( 1 − f ( z ) ) f'(z)=f(z)(1-f(z)) f(z)=f(z)(1f(z)))。
    • 凸性保证梯度下降(如 w : = w − α ∂ J ∂ w w := w - \alpha \frac{\partial J}{\partial w} w:=wαwJ)收敛到全局最优。


在这里插入图片描述

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值