线性分类介绍_硬分类和软分类-优快云博客

本文链接：https://blog.youkuaiyun.com/weixin_44769733/article/details/119858684

这篇博客介绍了线性分类的两种主要方法：硬分类和软分类。硬分类中，感知机通过错误驱动的迭代找到最佳分类边界；线性判别分析则通过最大化类间距离和最小化类内差异来确定分类。软分类以逻辑回归为代表，通过概率判断进行分类，其损失函数可以通过梯度下降优化。此外，还提及了生成模型和朴素贝叶斯分类的基本思想。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

线性分类

频率派: 线性回归 / 线性分类

贝叶斯派:概率图

线性: 属性非线性 / 全局非线性 / 系数非线性

线性分类模式: 硬分类 / 软分类

硬分类:主观的给出直线划分,指定属于哪个类,(例如: 感知机,线性判别)

软分类:概率判断:如逻辑回归 / 生成类:如朴素贝叶斯

一:硬分类

1.1感知机

找到一条分界线,分割不同类别

原理:错误驱动

迭代公式:
$\sum_{i=1}^{n}(y_iWx_i<0) \\ y_iWx_i<0 代表分类错误 \\ 当点刚好落在 y直线的时候,y_iWx_i=0 \\ 当点落在 y直线上方的时候,Wx_i>0,同时y>0 \\ 当点落在 y直线下方的时候,Wx_i<0,同时y<0 \\ 所以:分类正确的时候y_iWx_i>0,分类错误的时候y_iWx_i<0$

问题:损失函数是一个离散函数,不可导,

解决:梯度下降

1.2:线性判别

原理:类似于PCA,CDA,类内小,类间大

类内小:方差衡量

类间大:均值之差衡量

在这里插入图片描述

公式推导:

$投影点:x_iW = |x_i||w|cosθ=|x_i|cosθ \\ 均值 μ = \frac{1}{n}\sum_{i=1}^{n}W^Tx_i \\ 方差 s = \frac{1}{n}\sum_{i=1}^{n}(μ_i-μ)(μ_i-μ)^T \\ 目标: \\ 1.类间差距大,用均值之差(μ_1-μ_2)^2 , 使用平方是因为绝对值不可导 \\ 2.类内差异小,用方差之和下(s_1+s_2) \\ 最终损失函数 f(x) = \frac{(z_1-z_2)^2}{s_1+s_2},目标是损失函数越小越好,所以s_1+s_2越大,(z_1-z_2)^2越小越好 \\ 如何满足损失函数的结果: 梯度下降$

二:软分类

判别模型:逻辑回归

生成模型:高斯判别分类

2.1 判别模型

二分类:
$P(C1|X)=\frac{P(X|C1)P(C1)}{P(X|C1)P(C1)+P(X|C2)p(c2)}=\frac{1}{1+\frac{P(X|C2)P(C2)}{P(X|C1)P(C1)}} \\ 假设: a = \frac{P(X|C2)P(C2)}{P(X|C1)P(C1)} , 则 P(C1|X)=\frac{1}{1+a} 求导之后 = -\frac{1}{(1+a)^2} \\ 又假设:a=e^{-b} ,则 P(C1|X)=\frac{1}{1+exp^{(-b)}} \\ 又假设 b = -W^Tx , 则 P(C1|X)=\frac{1}{1+exp^{(-W^Tx)}} \\ 所以P(C2|X) = 1-P(C1|X) = \frac{exp^{(-W^Tx)}}{1+exp^{(-W^Tx)}}$

结论:P(C1|X) 和 P(C2|X) 都可以计算出概率,哪个概率大则属于哪个分类

问题:不能求导

所以需要把两个概率放进一个函数:
$P(C1|X)^y * P(C2|X)^{(1-y)} \\ 所以当y=1的时候,结果是P(C1|X),当y=0的时候,结果是P(C2|X) \\ P(y|x) = P(C1|X)*P(C2|X) =(\frac{1}{1+exp^{(-W^Tx)}})^y * (\frac{exp^{(-W^Tx)}}{1+exp^{(-W^Tx)}})^{1-y} \\ 关于W的最大似然估计MLE: W = argmax P(y|X) = argmax\sum_{i=1}^{N}logP(y|X) \\ =\sum_{i=1}^{N}[ylog(\frac{1}{1+exp^{(-W^Tx)}}) + (1-y)log(\frac{exp^{(-W^Tx)}}{1+exp^{(-W^Tx)}})] \\ 假设:f(x,W) = \frac{1}{1+exp^{(-W^Tx)}},则 \\ MLE = argmax\sum_{i=1}^{N}(ylogf(x,W)+(1-y)log(1-f(x,W))) \\ 引出交叉熵:-H(p,q) = -( ylogf(x,W)+(1-y)log(1-f(x,W))) \\ 因为目标是MLE最大化,所以交叉熵-H(p,q)要最小化$