Week 5: 深度学习补遗：逻辑回归

最新推荐文章于 2025-11-30 17:53:43 发布

原创

最新推荐文章于 2025-11-30 17:53:43 发布 · 629 阅读

14 ·

CC 4.0 BY-SA版权

文章标签：

#深度学习 #逻辑回归 #人工智能

文章目录

Week 5: 深度学习补遗：逻辑回归

Week 5: 深度学习补遗：逻辑回归

摘要

本周继续跟随李宏毅老师的课程学习，主要对逻辑回归相关内容进行了学习和推导，对多分类任务进行了更加深入的探索。同时，针对判别型模型与生成型模型的区别进行了数学上的推导，建立了一定的认识。

Abstract

This week, I continued to follow Professor Li Hongyi’s course learning, mainly studying and deriving content related to logistic regression, and exploring multi classification tasks in more depth. At the same time, mathematical deductions were made regarding the differences between discriminative models and generative models, establishing a certain understanding.

1. 逻辑回归的函数变化

逻辑回归在线性回归的基础上加入了 $S i g m o i d$ 函数，使输出介于 $(0, 1)$ 之间，适用于分类问题，将线性输出结果转换为属于某个类别的概率。

Function Set

图片来源：ML Lecture 5: Logistic Regression

2. 逻辑回归的损失变化

在上一章Week 4[Github / 优快云]中，提到利用似然函数 $L (w, b)$ 衡量模型拟合程度的好坏。
$\begin{aligned} L(w,b) &= f_{w,b}(x^1)f_{w,b}(x^2)(1-f_{w,b}(x^3))\dots f_{w,b}(x^N) \\ -\ln L(w,b) &= \ln f_{w,b}(x^1)+\ln f_{w,b}(x^2)+\ln(1-f_{w,b}(x^3))\dots +\ln f_{w,b}(x^N)\\ &=\sum_n\underset{\text{Cross Entropy between two Bernoulli distribution}}{\underline{-[\hat{y}\ln{f_{w,b}(x^n)}+(1-\hat{y})\ln{(1-f_{w,b}(x^n))}]}} \end{aligned}$

经过这样的变换，可以推出两个伯努利分布之间的交叉熵。而更加一般的两个分布之间的交叉熵可以表示为：
$H(p,q)=-\sum_xp(x)\ln(q(x))$
交叉熵代表着两个分布的接近程度，两个分布越接近，其交叉熵应越接近0。因此损失函数可以表示为：
$\begin{aligned} L(f)&=\sum_n C(f(x^n),\hat{y}^n) \\ C(f(x^n),\hat{y}^n) &= -[\hat{y}^n\ln f(x^n)+(1-\hat{y}^n)\ln(1-\ln f(x^n))] \end{aligned}$
求出模型分布与原分布的交叉熵，即模型预测分布于原分布的相似程度。