【统计学习课程】2 线性分类

Jiaxi_Cao

于 2020-08-03 19:17:07 发布

阅读量343

点赞数 3

文章标签：机器学习人工智能算法深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/qq_40613549/article/details/106148107

版权

本文深入探讨了线性分类问题，包括二分类、多分类和多标签分类，然后详细介绍了Logistic回归，从sigmoid函数、优化目标、概率解释到推广的Logistic回归。此外，还讲解了LDA、感知机及其优化目标，以及多分类和多标签问题的处理方法。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

总结自刘东老师《统计学习》课程，教材选用周志华老师《机器学习》西瓜书
每节都给了小结，可以快速了解每节内容

分类问题

基本知识

分类问题主要分为：二分类问题，多分类问题，多标签分类问题
二分类问题：每个数据只有一个标签，标签只有2种可能取值
多分类问题：每个数据只有一个标签，标签有多种可能取值
多标签问题：每个数据有多个标签，每个标签有多个可能取值

分类 vs 回归

回归问题：输出是连续的 vs 分类问题：输出是离散的
因此，
分类问题即经过量化的回归问题
所以分类问题其实比回归问题更复杂，难度更大

从回归到分类

线性回归的典型优化目标为
$\min_{w,b}\sum_{i=0}^{N}(y_i-(w^Tx_i+b))^2$

类似的，推广到二分类问题为，用回归的方法得到的结果就是
$t=w^Tx+b$

经过量化，结果变为
$t=sign(w^Tx+b)$

二分类问题的分类面为
$w^Tx+b=0$

二分类的优化目标就变为
$\min_{w,b}\sum_{i=0}^{N}(t_i-sign(w^Tx_i+b))^2$

其中， $t_i$ 为每个样本的标签，对于二分类问题， $t_i\in\{-1,+1\}$

小结

1 分类是回归的量化，比回归更复杂
2 优化目标的改变与分类面的定义

Logistic回归

什么是Logistic回归

Logistic回归（对数似然回归），虽然叫回归，但实际是一个线性分类方法。
对于优化问题
$\min_{w,b}\sum_{i=0}^{N}(t_i-sign(w^Tx_i+b))^2$

Logistic回归的第一个修改：将符号函数sign改为sigmoid函数
$s(x)=\frac{1}{1+e^{-x}}$

目的：符号函数在0点不可导（导数无穷大），而其他位置导数为0，是很难优化的；而sigmoid函数处处可导，同时sigmoid的输出在0到1之间，可以用于量化与分类

Logistic回归的第二个修改：将类别标签重映射
$y_i=\frac{t_i+1}{2}$

目的：便于计算

Logistic回归的第三个修改：用交叉熵代替平方误差作为优化目标，待优化的函数为
$\min\sum-y_i\log(\hat{y_i})-(1-y_i)\log(1-\hat{y_i})$

为什么用交叉熵作为优化目标

理解一

从概率的角度看，二分类问题可以被看作，估计一个输入属于类别+1的概率 $P(t_i=+1|x_i)$ 问题， $P(t_i=+1|x_i)>0.5$ 就认为输入属于+1类。
对于一个输入 $x_i$ ，其通过sigmoid函数得到一个0~1的输出，这个输出值就可以看作它属于+1类的概率，即
$P(t_i|x,w,b)=\{\begin{matrix} \hat{y_i} \quad t_i=+1\\1-\hat{y_i}\quad t_i=-1\end{matrix}$
由于标签经过了重映射，概率函数可以改写为
$P(t_i|x,w,b)=(\hat{y_i})^{y_i}(1-\hat{y_i})^{1-y_i}$
有了概率密度函数，那么即可用极大似然法对参数进行估计
$\max\prod P(t_i|x,w,b)$

也即
$\max\sum \log P(t_i|x,w,b)=\max\sum (y_i\log(\hat{y_i}) +(1-y_i)\log(1-\hat{y_i}))$

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。