线性分类介绍

这篇博客介绍了线性分类的两种主要方法:硬分类和软分类。硬分类中,感知机通过错误驱动的迭代找到最佳分类边界;线性判别分析则通过最大化类间距离和最小化类内差异来确定分类。软分类以逻辑回归为代表,通过概率判断进行分类,其损失函数可以通过梯度下降优化。此外,还提及了生成模型和朴素贝叶斯分类的基本思想。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

线性分类

频率派: 线性回归 / 线性分类

贝叶斯派:概率图

线性: 属性非线性 / 全局非线性 / 系数非线性

线性分类模式: 硬分类 / 软分类

硬分类:主观的给出直线划分,指定属于哪个类,(例如: 感知机,线性判别)

软分类:概率判断:如逻辑回归 / 生成类:如朴素贝叶斯

一:硬分类
1.1感知机

找到一条分界线,分割不同类别

原理:错误驱动

迭代公式:
损 失 函 数 L ( w ) = ∑ i = 1 n ( y i W x i < 0 ) y i W x i < 0 代 表 分 类 错 误 当 点 刚 好 落 在 y 直 线 的 时 候 , y i W x i = 0 当 点 落 在 y 直 线 上 方 的 时 候 , W x i > 0 , 同 时 y > 0 当 点 落 在 y 直 线 下 方 的 时 候 , W x i < 0 , 同 时 y < 0 所 以 : 分 类 正 确 的 时 候 y i W x i > 0 , 分 类 错 误 的 时 候 y i W x i < 0 损失函数 L(w) = \sum_{i=1}^{n}(y_iWx_i<0) \\ y_iWx_i<0 代表分类错误 \\ 当点刚好落在 y直线的时候,y_iWx_i=0 \\ 当点落在 y直线上方的时候,Wx_i>0,同时y>0 \\ 当点落在 y直线下方的时候,Wx_i<0,同时y<0 \\ 所以:分类正确的时候y_iWx_i>0,分类错误的时候y_iWx_i<0 L(w)=i=1n(yiWxi<0)yiWxi<0y线,yiWxi=0y线,Wxi>0,y>0y线,Wxi<0,y<0:yiWxi>0,yiWxi<0

问题:损失函数是一个离散函数,不可导,

解决:梯度下降

1.2:线性判别

原理:类似于PCA,CDA,类内小,类间大

类内小:方差衡量

类间大:均值之差衡量

在这里插入图片描述

公式推导:

投 影 点 : x i W = ∣ x i ∣ ∣ w ∣ c o s θ = ∣ x i ∣ c o s θ 均 值 μ = 1 n ∑ i = 1 n W T x i 方 差 s = 1 n ∑ i = 1 n ( μ i − μ ) ( μ i − μ ) T 目 标 : 1. 类 间 差 距 大 , 用 均 值 之 差 ( μ 1 − μ 2 ) 2 , 使 用 平 方 是 因 为 绝 对 值 不 可 导 2. 类 内 差 异 小 , 用 方 差 之 和 下 ( s 1 + s 2 ) 最 终 损 失 函 数 f ( x ) = ( z 1 − z 2 ) 2 s 1 + s 2 , 目 标 是 损 失 函 数 越 小 越 好 , 所 以 s 1 + s 2 越 大 , ( z 1 − z 2 ) 2 越 小 越 好 如 何 满 足 损 失 函 数 的 结 果 : 梯 度 下 降 投影点:x_iW = |x_i||w|cosθ=|x_i|cosθ \\ 均值 μ = \frac{1}{n}\sum_{i=1}^{n}W^Tx_i \\ 方差 s = \frac{1}{n}\sum_{i=1}^{n}(μ_i-μ)(μ_i-μ)^T \\ 目标: \\ 1.类间差距大,用均值之差(μ_1-μ_2)^2 , 使用平方是因为绝对值不可导 \\ 2.类内差异小,用方差之和下(s_1+s_2) \\ 最终损失函数 f(x) = \frac{(z_1-z_2)^2}{s_1+s_2},目标是损失函数越小越好,所以s_1+s_2越大,(z_1-z_2)^2越小越好 \\ 如何满足损失函数的结果: 梯度下降 :xiW=xiwcosθ=xicosθμ=n1i=1nWTxis=n1i=1n(μiμ)(μiμ)T:1.,(μ1μ2)2,使2.,(s1+s2)f(x)=s1+s2(z1z2)2,,s1+s2,(z1z2)2:

二:软分类

判别模型:逻辑回归

生成模型:高斯判别分类

2.1 判别模型

二分类:
P ( C 1 ∣ X ) = P ( X ∣ C 1 ) P ( C 1 ) P ( X ∣ C 1 ) P ( C 1 ) + P ( X ∣ C 2 ) p ( c 2 ) = 1 1 + P ( X ∣ C 2 ) P ( C 2 ) P ( X ∣ C 1 ) P ( C 1 ) 假 设 : a = P ( X ∣ C 2 ) P ( C 2 ) P ( X ∣ C 1 ) P ( C 1 ) , 则 P ( C 1 ∣ X ) = 1 1 + a 求 导 之 后 = − 1 ( 1 + a ) 2 又 假 设 : a = e − b , 则 P ( C 1 ∣ X ) = 1 1 + e x p ( − b ) 又 假 设 b = − W T x , 则 P ( C 1 ∣ X ) = 1 1 + e x p ( − W T x ) 所 以 P ( C 2 ∣ X ) = 1 − P ( C 1 ∣ X ) = e x p ( − W T x ) 1 + e x p ( − W T x ) P(C1|X)=\frac{P(X|C1)P(C1)}{P(X|C1)P(C1)+P(X|C2)p(c2)}=\frac{1}{1+\frac{P(X|C2)P(C2)}{P(X|C1)P(C1)}} \\ 假设: a = \frac{P(X|C2)P(C2)}{P(X|C1)P(C1)} , 则 P(C1|X)=\frac{1}{1+a} 求导之后 = -\frac{1}{(1+a)^2} \\ 又假设:a=e^{-b} ,则 P(C1|X)=\frac{1}{1+exp^{(-b)}} \\ 又假设 b = -W^Tx , 则 P(C1|X)=\frac{1}{1+exp^{(-W^Tx)}} \\ 所以P(C2|X) = 1-P(C1|X) = \frac{exp^{(-W^Tx)}}{1+exp^{(-W^Tx)}} P(C1X)=P(XC1)P(C1)+P(XC2)p(c2)P(XC1)P(C1)=1+P(XC1)P(C1)P(XC2)P(C2)1:a=P(XC1)P(C1)P(XC2)P(C2),P(C1X)=1+a1=(1+a)21:a=eb,P(C1X)=1+exp(b)1b=WTx,P(C1X)=1+exp(WTx)1P(C2X)=1P(C1X)=1+exp(WTx)exp(WTx)

结论:P(C1|X) 和 P(C2|X) 都可以计算出概率,哪个概率大则属于哪个分类

问题:不能求导

所以需要把两个概率放进一个函数:
P ( C 1 ∣ X ) ∗ P ( C 2 ∣ X ) = P ( C 1 ∣ X ) y ∗ P ( C 2 ∣ X ) ( 1 − y ) 所 以 当 y = 1 的 时 候 , 结 果 是 P ( C 1 ∣ X ) , 当 y = 0 的 时 候 , 结 果 是 P ( C 2 ∣ X ) P ( y ∣ x ) = P ( C 1 ∣ X ) ∗ P ( C 2 ∣ X ) = ( 1 1 + e x p ( − W T x ) ) y ∗ ( e x p ( − W T x ) 1 + e x p ( − W T x ) ) 1 − y 关 于 W 的 最 大 似 然 估 计 M L E : W = a r g m a x P ( y ∣ X ) = a r g m a x ∑ i = 1 N l o g P ( y ∣ X ) = ∑ i = 1 N [ y l o g ( 1 1 + e x p ( − W T x ) ) + ( 1 − y ) l o g ( e x p ( − W T x ) 1 + e x p ( − W T x ) ) ] 假 设 : f ( x , W ) = 1 1 + e x p ( − W T x ) , 则 M L E = a r g m a x ∑ i = 1 N ( y l o g f ( x , W ) + ( 1 − y ) l o g ( 1 − f ( x , W ) ) ) 引 出 交 叉 熵 : − H ( p , q ) = − ( y l o g f ( x , W ) + ( 1 − y ) l o g ( 1 − f ( x , W ) ) ) 因 为 目 标 是 M L E 最 大 化 , 所 以 交 叉 熵 − H ( p , q ) 要 最 小 化 P(C1|X)*P(C2|X) = P(C1|X)^y * P(C2|X)^{(1-y)} \\ 所以当y=1的时候,结果是P(C1|X),当y=0的时候,结果是P(C2|X) \\ P(y|x) = P(C1|X)*P(C2|X) =(\frac{1}{1+exp^{(-W^Tx)}})^y * (\frac{exp^{(-W^Tx)}}{1+exp^{(-W^Tx)}})^{1-y} \\ 关于W的最大似然估计MLE: W = argmax P(y|X) = argmax\sum_{i=1}^{N}logP(y|X) \\ =\sum_{i=1}^{N}[ylog(\frac{1}{1+exp^{(-W^Tx)}}) + (1-y)log(\frac{exp^{(-W^Tx)}}{1+exp^{(-W^Tx)}})] \\ 假设:f(x,W) = \frac{1}{1+exp^{(-W^Tx)}},则 \\ MLE = argmax\sum_{i=1}^{N}(ylogf(x,W)+(1-y)log(1-f(x,W))) \\ 引出交叉熵:-H(p,q) = -( ylogf(x,W)+(1-y)log(1-f(x,W))) \\ 因为目标是MLE最大化,所以交叉熵-H(p,q)要最小化 P(C1X)P(C2X)=P(C1X)yP(C2X)(1y)y=1,P(C1X),y=0,P(C2X)P(yx)=P(C1X)P(C2X)=(1+exp(WTx)1)y(1+exp(WTx)exp(WTx))1yWMLE:W=argmaxP(yX)=argmaxi=1NlogP(yX)=i=1N[ylog(1+exp(WTx)1)+(1y)log(1+exp(WTx)exp(WTx))]:f(x,W)=1+exp(WTx)1,MLE=argmaxi=1N(ylogf(x,W)+(1y)log(1f(x,W))):H(p,q)=(ylogf(x,W)+(1y)log(1f(x,W)))MLE,H(p,q)

2.2 生成模型

生成模型不需要知道P(C1|X)的值,只需要知道P(C1|X)和P(C2|X)两者的大小即可

三:朴素贝叶斯

贝叶斯–>概率图,有向

相互独立:当x1 和 x2 相互独立,则 P(x1,x2) = P(x1)*P(x2)

条件独立:即当z成立的前提下,x和y才相互独立

记为:

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-aWjOftCk-1629640529785)(https://bkimg.cdn.bcebos.com/formula/2bd7bfffa835678c7569e49e094ddc5d.svg)]

案例: 当Y成立的条件下,X各个维度相互独立

P(X,Y) = P(X|Y)P(Y)

P(X=X,Y=c1) =P(X=x1|Y=c1) x P(X=x2|Y=c1) x P(X=x3|Y=c1) …P(X=xp|Y=c1)

这里x1,x2,x3…xp代表X的p个维度

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值