[机器学习] -[传统分类问题] - 朴素贝叶斯分类 + 逻辑回归分类

本文详细介绍了朴素贝叶斯分类的基本原理,包括贝叶斯定理、特征条件独立假设以及最大似然估计。讨论了离散型和连续型的最大似然估计,并解释了如何在朴素贝叶斯模型中应用这些估计方法。此外,还涵盖了贝叶斯估计以及逻辑回归在分类问题中的应用,展示了如何通过调整参数估计来优化模型。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

朴素贝叶斯分类

朴素贝叶斯算法的核心是学习输入 X X X和输出类 Y Y Y的联合概率分布 P ( X , Y ) P(X,Y) P(X,Y).
学习的方式是:学习先验概率 和 条件概率, 从而得到 后验概率。

基础知识

朴素贝叶斯基于贝叶斯原理特征条件独立假设

贝叶斯原理

P ( X , Y ) = P ( Y ) P ( X ∣ Y ) P(X,Y)=P(Y)P(X|Y) P(X,Y)=P(Y)P(XY)
对于两个事件来讲,同时发生两个事件的概率 等于 发生事件Y的情况下发生X的可能性。
如果X,Y是独立的,那么 P ( X ∣ Y ) = P ( X ) P(X|Y)=P(X) P(XY)=P(X)
但是,很多特征实际上是有联系的, P ( X ∣ Y ) ≠ P ( X ) P(X|Y) \neq P(X) P(XY)=P(X)

特征条件独立假设

“特征”+“条件独立”+“假设”。
这个性质是指: 对于样本的特征 X = { x ( 1 ) , x ( 2 ) , … , x ( n ) } X=\{{x^{(1)}},x^{(2)},\dots,x^{(n)}\} X={x(1),x(2),,x(n)}来说,特征与特征之间在发生 Y Y Y的条件下是独立的。

对于输入 x ∈ R n x \in R^n xRn,输出是 Y = { c 1 , c 2 , … , c k } Y=\{ c_1,c_2,\dots, c_k\} Y={c1,c2,,ck} ,
P ( X = x ∣ Y = c k ) = P ( X ( 1 ) = x ( 1 ) , X ( 2 ) = x ( 2 ) , … , X ( n ) = x ( n ) ∣ Y = c k ) P(X=x|Y=c_k)=P(X^{(1)}=x^{(1)}, X^{(2)}=x^{(2)},\dots,X^{(n)}=x^{(n)}|Y=c_k) P(X=xY=ck)=P(X(1)=x(1),X(2)=x(2),,X(n)=x(n)Y=ck)
这种普遍情况下,条件概率分布 P ( X = x ∣ Y = c k ) P(X=x|Y=c_k) P(X=xY=ck)有指数级数量的参数。如果 x ( j ) x^{(j)} x(j) S j S_j Sj个可取的值,Y的可取值是K,那么参数的数量为: K ∏ j = 1 n S j K\prod_{j=1}^n S_j Kj=1nSj。这种估计参数过多,是不可取的。 以下的特征条件独立假设,限制比较强,但是能够极大的减少参数数量。

如果满足特征条件独立,则可以实现:
P ( X = x ∣ Y = c k ) = P ( X ( 1 ) = x ( 1 ) ∣ Y = c k ) P ( X ( 2 ) = x ( 2 ) ∣ Y = c k ) … P ( X ( n ) = x ( n ) ∣ Y = c k ) = ∏ j = 1 n P ( X ( j ) = x ( j ) ∣ Y = c k ) P(X=x|Y=c_k)=P(X^{(1)}=x^{(1)}|Y=c_k) P(X^{(2)}=x^{(2)}|Y=c_k)\dots P(X^{(n)}=x^{(n)}|Y=c_k)=\prod_{j=1}^n P(X^{(j)}=x^{(j)}|Y=c_k) P(X=xY=ck)=P(X(1)=x(1)Y=ck)P(X(2)=x(2)Y=ck)P(X(n)=x(n)Y=ck)=j=1nP(X(j)=x(j)Y=ck)
虽然实际上,不同特征之间在满足 c k c_k ck的情况下 有可能存在联系,但是这样子的假设 在损失一定准确性的情况下简化了模型。
在这种情况下,条件概率分布的参数数量是 K ∑ j = 1 n S j K \sum_{j=1}^n S_j Kj=1nSj


PS: 特征条件独立 和 独立同分布区别
独立同分布是指 不同样本点 ( x 1 , c 1 ) … ( x 2 , c 1 ) (x_1,c_1) \dots (x_2,c_1) (x1,c1)(x2,c1) 之间的采集是 没有依赖关系,同时满足一个概率分布。 没有依赖关系是指 样本点的产生是独立的,没有时序关系。 同一个概率分布是指 样本点 不是多个分布产生的,而是一个分布产生的。

特征条件独立 是指 样本中的特征。


基本方法

对于我们想要知道的样本点 x x x,对于不同的类 { c 1 , c 2 , … , c k } \{ c_1,c_2,\dots,c_k\} {c1,c2,,ck},我们总可以生成对应的概率 P ( Y = c j ∣ X = x ) P(Y=c_j|X=x) P(Y=cjX=x),表示 我们有样本点 x x x,样本点属于 c j c_j cj类的概率。

根据贝叶斯定理,我们知道:
P ( X , Y ) = P ( X ) P ( Y ∣ X ) = P ( Y ) P ( X ∣ Y ) P(X,Y)=P(X)P(Y|X)=P(Y)P(X|Y) P(X,Y)=P(X)P(YX)=P(Y)P(XY)
P ( Y ∣ X ) = P ( Y ) P ( X ∣ Y ) P ( X ) P(Y|X)=\frac{P(Y)P(X|Y)}{P(X)} P(YX)=P(X)P(Y)P(XY)
因此,
P ( Y = c j ∣ X = x ) = P ( Y = c j ) P ( X = x ∣ Y = c j ) ∑ i = 1 k P ( Y = c i ) P ( X = x ∣ Y = c i ) = P ( Y = c j ) ∏ l = 1 n P ( X ( l ) = x ( l ) ∣ Y = c j ) ∑ i = 1 k P ( Y = c i ) ∏ l = 1 n P ( X ( l ) = x ( l ) ∣ Y = c i ) P(Y=c_j|X=x)=\frac{P(Y=c_j) P(X=x|Y=c_j)}{\sum_{i=1}^k P(Y=c_i)P(X=x|Y=c_i)}=\frac{P(Y=c_j) \prod_{l=1}^n P(X^{(l)}=x^{(l)}|Y=c_j) }{ \sum_{i=1}^k P(Y=c_i)\prod_{l=1}^n P(X^{(l)}=x^{(l)}|Y=c_i) } P(Y=cjX=x)=i=1kP(Y=ci)P(X=xY=ci)P(Y=cj)P(X=xY=cj)=i=1kP(Y=ci)l=1nP(X(l)=x(l)Y=ci)P(Y=cj)l=1nP(X(l)=x(l)Y=cj)

最后,我们选择 c j c_j cj中概率最大的类作为 x x x的类。
y = f ( x ) = a r g   m a x c k   P ( Y = c k ) y=f(x)=arg \ max_{c_k} \ P(Y=c_k) y=f(x)=arg maxck P(Y=ck)
因为分母对于所有类实际上是一致的,所以,我们实际使用的是:
y = a r g   m a x c j   P ( Y = c j ) ∏ l = 1 n P ( X ( l ) = x ( l ) ∣ Y = c j ) y=arg \ max_{c_j} \ P(Y=c_j) \prod_{l=1}^n P(X^{(l)}=x^{(l)}|Y=c_j) y=arg maxcj P(Y=cj)l=1nP(X(l)=x(l)Y=cj)

后验概率最大的含义

我们采用 0-1损失函数,对于期望风险求最小
P e x p = E [ L ( Y , f ( X ) ) ] = ∫ P ( X , Y ) L ( Y , f ( X ) ) = ∫ ∑ k = 1 K P ( c k ∣ X ) P ( X ) L ( c k , f ( X ) ) = ∑ k = 1 K E X [ L ( c k , f ( X ) ) ] P ( c k ∣ X ) P_{exp}=E[L(Y,f(X))] =\int P(X,Y) L(Y,f(X)) = \int \sum_{k=1}^K P(c_k|X)P(X)L(c_k,f(X)) = \sum_{k=1}^K E_X[L(c_k,f(X))]P(c_k|X) Pexp=E[L(Y,f(X))]=P(X,Y)L(Y,f(X))=k=1KP(ckX)P(X)L(ck,f(X))=k=1KEX[L(ck,f(X))]P(ckX)
为了让期望风险最小,因为样本之间是独立的,我们 只需要 逐个对 X = x X=x X=x取最小:
f ( x ) = a r g   m i n y ∈ Y ∑ k = 1 K L ( c k , y ) P ( c k ∣ X = x ) = a r g   m i n y ∈ Y ∑ k = 1 K P ( y ≠ c k ∣ X = x ) = a r g   m i n y ∈ Y ( 1 − P ( y = c k ∣ X = x ) ) = a r g   m a x y ∈ Y P ( c k ∣ X = x ) f(x)=arg\ min_{y\in Y}\sum_{k=1}^K L(c_k,y) P(c_k|X=x) =arg \ min_{y \in Y}\sum_{k=1}^K P(y \neq c_k|X=x)=arg \ min_{y \in Y} (1 - P(y = c_k|X=x)) = arg\ max_{y \in Y} P(c_k|X=x) f(x)=arg minyYk=1KL(ck,y)P(ckX=x)=arg minyYk=1KP(y=ckX=x)=arg minyY(1P(y=ckX=x))=arg maxyYP(ckX=x)

极大似然估计

我们在朴素贝叶斯方法中需要对 P ( Y = c k ) P(Y=c_k) P(Y=ck) P ( X ( j ) = x ( j ) ∣ Y = c k ) P(X^{(j)}=x^{(j)}|Y=c_k) P(X(j)=x(j)Y=ck)进行估计。
更加准确的描述: 我们在有n个样本 { ( x 1 , y 1 ) , … , ( x n , y n ) } \{ (x_1,y_1),\dots, (x_n,y_n) \} {(x1,y1),,(xn,yn)},我们需要估计 P ( Y = c k ) P(Y=c_k) P(Y=ck) P ( X ( j ) = x ( j ) ∣ Y = c k ) P(X^{(j)}=x^{(j)}|Y=c_k) P(X(j)=x(j)Y=ck)的概率。 估计的方法是最大似然估计

离散型的最大似然估计

当我们有n个样本 { x 1 , x 2 , … , x n } \{x_1,x_2,\dots, x_n \} {x1,x2,,xn}, x x x取值是离散的k种 { 1 , 2 , … , k } \{1,2,\dots,k \} {1,2,,k},我们知道 每次采样得到的结果是第 i i i个的概率分布是 p i p_i pi。 满足 ∑ i = 1 k p i = 1 \sum_{i=1}^k p_i=1 i=1kpi=1
我们的目标是求出 n个样本(观测值)下, p i p_i pi是多少。
我们假设 P ( X = x i ) = p ( x i ) = p x i P(X=x_i)=p(x_i) = p_{x_i} P(X=xi)=p(xi)=pxi ( X 1 , X 2 , … , X n ) (X_1,X_2,\dots, X_n) (X1,X2,,Xn)是取自于总体的样本容量为n的样本,那么 ( X 1 , X 2 , … , X n ) (X_1,X_2, \dots,X_n) (X1,X2,,Xn)的联合概率是 ∏ i = 1 n p x i \prod_{i=1}^n p_{x_i} i=1npxi,这就是样本的似然函数。
L = ∏ i = 1 n p x i L=\prod_{i=1}^n p_{x_i} L=i=1npxi
最大似然估计就是假设: 我们的分布就是使得我们的观测最有可能出现的分布(最有可能出现:最大似然)。
目标: a r g   m a x p 1 , … , p k   L arg \ max_{p_1,\dots,p_k} \ L arg maxp1,,pk L
限制: ∑ i = 1 k p i = 1 \sum_{i=1}^k p_i=1 i=1kpi=1

L = ∏ x i = 1 k p x i m x i L = \prod_{x_i=1}^k p_{x_i}^{m_{x_i}} L=xi=1kpximxi, 其中 m x i m_{x_i} mxi 表示 x i x_i xi这个值出现的次数,满足 ∑ i = 1 k m i = N \sum_{i=1}^k m_i=N i=1kmi=N
等同于 l o g   L = ∑ i = 1 k m i l o g   p i log \ L=\sum_{i=1}^k m_i log\ p_i log L=i=1kmilog pi ,在满足 ∑ i = 1 k p i = 1 \sum_{i=1}^k p_i=1 i=1kpi=1 ∑ i = 1 k m i = N \sum_{i=1}^{k} m_i=N i=1kmi=N条件下求最大。
经过拉格朗日乘数,最后可以得到 p i = m i N p_i=\frac{m_i}{N} pi=Nmi
概率实际上就是每个值出现的比例。

连续型的最大似然估计

我们也是假设 我们得到了N个样本 x 1 , x 2 , … , x n {x_1,x_2,\dots,x_n} x1,x2,,xn X X X取值范围是连续的, P { X = x } = f ( x ; θ ) P\{X=x\}=f(x;\theta) P{X=x}=f(x;θ)(概率密度),满足 ∫ X f ( x ; θ ) = 1 \int_X f(x;\theta)=1 Xf(x;θ)=1 θ \theta θ是可以改变的,可以实现不同的概率分布。[注意参数空间和分布空间的区别: 我们实际上是在参数空间中取值,实现样本在分布空间的概率最大]。
( X 1 , X 2 , … , X n ) (X_1,X_2,\dots,X_n) (X1,X2,,Xn)的联合概率分布就是 L ( θ ) = L ( x 1 , x 2 , … , x n ; θ ) = ∏ i = 1 n f ( x i ; θ ) L(\theta)=L(x_1,x_2,\dots,x_n;\theta)=\prod_{i=1}^n f(x_i;\theta) L(θ)=L(x1,x2,,xn;θ)=i=1nf(xi;θ)
θ = a r g   m a x θ   L ( θ ) \theta = arg \ max_\theta\ L(\theta) θ=arg maxθ L(θ)
如果我们假设,我们的分布满足多元高斯分布: N ( μ , Σ ) N(\mu,\Sigma) N(μ,Σ),我们实际上就是在 { μ , Σ } \{ \mu,\Sigma \} {μ,Σ}的参数空间中寻找 满足最大似然的分布。
L = ∏ i = 1 n 1 ( 2 π ) k ∣ Σ ∣ e − 1 2 ( x i − μ ) T Σ − 1 ( x i − μ ) L=\prod_{i=1}^n \frac{1}{\sqrt{(2 \pi)^k | \Sigma |}}e^{-\frac{1}{2}(x_i-\mu)^T \Sigma^{-1}(x_i-\mu)} L=i=1n(2π)k∣Σ∣ 1e21(xiμ)TΣ1(xiμ)
m i n μ , Σ   l o g   L = ∑ i = 1 n − 1 2 [ ( x i − μ ) T Σ − 1 ( x i − μ ) + l n ∣ Σ ∣ ] min_{\mu,\Sigma} \ log \ L = \sum_{i=1}^n -\frac{1}{2}[(x_i-\mu)^T \Sigma^{-1} (x_i-\mu)+ln|\Sigma|] minμ,Σ log L=i=1n21[(xiμ)TΣ1(xiμ)+ln∣Σ∣]
最终可以得到:
μ = ∑ i = 1 N x i N \mu =\frac{\sum_{i=1}^N x_i}{N} μ=Ni=1Nxi
Σ = 1 N ∑ i = 1 , j = 1 N ( x i − μ ) T ( x j − μ ) \Sigma=\frac{1}{N}\sum_{i=1,j=1}^N(x_i-\mu)^T (x_j-\mu) Σ=N1i=1,j=1N(xiμ)T(xjμ)

朴素贝叶斯中的最大似然估计

P ( Y = c k ) = ∑ i = 1 N I ( y i = c k ) N , k = 1 , 2 , … , K P(Y=c_k)=\frac{\sum_{i=1}^N I(y_i=c_k)}{N},k=1,2,\dots,K P(Y=ck)=Ni=1NI(yi=ck),k=1,2,,K
P ( X ( j ) = a j l ∣ Y = c k ) = ∑ i = 1 N I ( x i ( j ) = a j l , y i = c k ) ∑ i = 1 N I ( y i = c k ) P(X^{(j)}=a_{jl}|Y=c_k)=\frac{ \sum_{i=1}^N I(x_i^{(j)}=a_{jl},y_i=c_k) }{\sum_{i=1}^N I(y_i=c_k)} P(X(j)=ajlY=ck)=i=1NI(yi=ck)i=1NI(xi(j)=ajl,yi=ck)

贝叶斯估计

我们知道,在上述计算中 只是采用了离散型的最大似然估计。 有一个问题就是,如果说 { x ( 1 ) , … , x ( n ) } \{ x^{(1)},\dots,x^{(n)} \} {x(1),,x(n)} 某一特征维度上 需要对一个没有出现过的值进行估计,那么条件概率为0,最终后验概率为0。这不是我们希望的,因此 贝叶斯估计解决了这一问题(假设每一个值都在)。
P λ ( X ( j ) = a j l ∣ Y = c k ) = ∑ i = 1 N I ( x i ( j ) = a j l , y i = c k ) + λ ∑ i = 1 N I ( y i = c i ) + S j λ P_\lambda (X^{(j)}=a_{jl}|Y=c_k)=\frac{\sum_{i=1}^N I(x_i^{(j)}=a_{jl},y_i=c_k)+\lambda}{ \sum_{i=1}^{N} I(y_i=c_i) +S_j \lambda } Pλ(X(j)=ajlY=ck)=i=1NI(yi=ci)+Sjλi=1NI(xi(j)=ajl,yi=ck)+λ

同样,对于先验概率,也有:
P λ ( Y = c k ) = ∑ i = 1 N I ( y i = c k ) + λ N + K λ P_\lambda (Y=c_k)=\frac{\sum_{i=1}^N I(y_i=c_k)+\lambda}{ N+K \lambda } Pλ(Y=ck)=N+Kλi=1NI(yi=ck)+λ

Generative model for classification

我们实际上可以限定 P ( X ∣ Y ) P(X|Y) P(XY)的分布类型:伯努利分布;多元高斯分布; β \beta β-二项式分布。

伯努利分布

伯努利分布只仅限于 X X X为两个值 { 0 , 1 } \{0,1\} {0,1} P ( X ∣ Y ) = { θ , 1 − θ } P(X|Y)=\{\theta, 1-\theta \} P(XY)={θ,1θ}
P ( X ∣ C ) = θ x ( 1 − θ ) 1 − x P(X|C)=\theta^x (1-\theta)^{1-x} P(XC)=θx(1θ)1x

L = − l o g ( p ( x 1 , x 2 , … , x n ∣ Y ) ) = − N c l o g ( θ c ) − ( N − N c ) l o g ( 1 − θ c ) L=-log( p(x_1,x_2,\dots , x_n|Y) )=-N_c log(\theta_c)-(N-N_c)log(1-\theta_c) L=log(p(x1,x2,,xnY))=Nclog(θc)(NNc)log(1θc)
L 对于 θ \theta θ求导,就可以得到结果: θ c = N c N \theta_c=\frac{N_c}{N} θc=NNc

β \beta β-二项式分布

有时候我们会设置 θ \theta θ出现的概率: P ( θ ) = θ a − 1 ( 1 − θ ) b − 1 P(\theta)=\theta^{a-1}(1-\theta)^{b-1} P(θ)=θa1(1θ)b1
P ( θ ∣ D c ) ∼ P ( D c ∣ θ ) P ( θ ) ∼ θ N c + a − 1 ( 1 − θ ) N − N c + b − 1 ∼ B e t a ( N c + a , N − N c + b ) P(\theta|D_c)\sim P(D_c|\theta)P(\theta)\sim \theta^{N_c+a-1}(1-\theta)^{N-N_c+b-1}\sim Beta(N_c+a,N-N_c+b) P(θDc)P(Dcθ)P(θ)θNc+a1(1θ)NNc+b1Beta(Nc+a,NNc+b)
此时,我们结合我们的先验 P ( θ ) P(\theta) P(θ)和 分布的最大概率,得到了 样本分布下的 θ \theta θ分布的概率。 这样子,就不只将 θ \theta θ设置为一个值,而是多个连续值,形成一个分布。
P ( X = 1 ∣ D c ) = ∫ 0 1 P ( X = 1 ∣ θ ) P ( θ ∣ D c ) = ∫ 0 1 θ P ( θ ∣ D c ) = E [ θ ∣ D c ] P(X=1|D_c)=\int_0^1 P(X=1|\theta)P(\theta|D_c)=\int_0^1 \theta P(\theta|D_c)=E[\theta|D_c] P(X=1∣Dc)=01P(X=1∣θ)P(θDc)=01θP(θDc)=E[θDc]

多元高斯分布

P ( X ∣ Y ) = 1 ( 2 π ) D ∣ Σ ∣ e − 1 2 ( x − μ ) T Σ − 1 ( x − μ ) P(X|Y)=\frac{1}{ \sqrt{(2\pi)^D |\Sigma| } } e^{-\frac{1}{2} (x-\mu)^T \Sigma^{-1} (x-\mu)} P(XY)=(2π)D∣Σ∣ 1e21(xμ)TΣ1(xμ)
μ = 1 N ∑ i = 1 N x i \mu=\frac{1}{N}\sum_{i=1}^N x_i μ=N1i=1Nxi
Σ i , j = C o v ( X ( i ) , X ( j ) ) = E [ ( X ( i ) − μ ( i ) ) ( X ( j ) − μ ( j ) ) ] \Sigma_{i,j}=Cov(X^{(i)},X^{(j)})=E[(X^{(i)}-\mu^{(i)}) (X^{(j)}-\mu^{(j)})] Σi,j=Cov(X(i),X(j))=E[(X(i)μ(i))(X(j)μ(j))]
其中 X ( i ) X^{(i)} X(i)表示 样本的第 i i i维的元素。

如果是一个二分类问题,根据贝叶斯定理,可以得到:
P ( Y = c 1 ∣ x ) = P ( Y = c 1 ) P ( X = x ∣ Y = c 1 ) = m 1 N 1 ( 2 π ) D ∣ Σ 1 ∣ e − 1 2 ( x − μ 1 ) T Σ 1 − 1 ( x − μ 1 ) P(Y=c_1|x)=P(Y=c_1)P(X=x|Y=c_1)=\frac{m_1}{N}\frac{1}{\sqrt{(2\pi)^D |\Sigma_1|} e^{-\frac{1}{2}(x-\mu_1)^T \Sigma_1^{-1}(x-\mu_1) } } P(Y=c1x)=P(Y=c1)P(X=xY=c1)=Nm1(2π)DΣ1 e21(xμ1)TΣ11(xμ1)1
P ( Y = c 2 ∣ x ) = P ( Y = c 2 ) P ( X = x ∣ Y = c 2 ) = m 2 N 1 ( 2 π ) D ∣ Σ 2 ∣ e − 1 2 ( x − μ 2 ) T Σ 2 − 1 ( x − μ 2 ) P(Y=c_2|x)=P(Y=c_2)P(X=x|Y=c_2)=\frac{m_2}{N}\frac{1}{\sqrt{(2\pi)^D |\Sigma_2|} e^{-\frac{1}{2}(x-\mu_2)^T \Sigma_2^{-1}(x-\mu_2) } } P(Y=c2x)=P(Y=c2)P(X=xY=c2)=Nm2(2π)DΣ2 e21(xμ2)TΣ21(xμ2)1
设置概率和为1:
P 1 = 1 1 + m 2 ∣ Σ 1 ∣ m 1 ∣ Σ 2 ∣ e − 1 2 [ ( x − μ 2 ) T Σ 2 − 1 ( x − μ 2 ) − ( x − μ 1 ) T Σ 1 − 1 ( x − μ 1 ) ] P_1=\frac{1}{1+\frac{m_2 \sqrt{|\Sigma_1|}}{m_1 \sqrt{|\Sigma_2|}}e^{-\frac{1}{2}[ (x-\mu_2)^T\Sigma_2^{-1}(x-\mu_2)-(x-\mu_1)^T\Sigma_1^{-1}(x-\mu_1) ]}} P1=1+m1Σ2 m2Σ1 e21[(xμ2)TΣ21(xμ2)(xμ1)TΣ11(xμ1)]1

我们设置 P ( X ∣ Y = c 1 ) P(X|Y=c_1) P(XY=c1) P ( X ∣ Y = c 2 ) P(X|Y=c_2) P(XY=c2)的协方差设置为一个: Σ = m 1 N Σ + m 2 N Σ \Sigma=\frac{m_1}{N}\Sigma+\frac{m_2}{N}\Sigma Σ=Nm1Σ+Nm2Σ
P 1 = 1 1 + m 2 m 1 e − 1 2 [ ( x − μ 2 ) T Σ − 1 ( x − μ 2 ) − ( x − μ 1 ) T Σ − 1 ( x − μ 1 ) ] = 1 1 + m 2 m 1 e − 1 2 ( 2 ( μ 1 − μ 2 ) T Σ − 1 x + ( μ 2 − μ 1 ) T Σ − 1 ( μ 2 − μ 1 ) ) P_1=\frac{1}{1+\frac{m_2}{m_1}e^{-\frac{1}{2}[ (x-\mu_2)^T\Sigma^{-1}(x-\mu_2)-(x-\mu_1)^T\Sigma^{-1}(x-\mu_1) ]}}=\frac{1}{1+\frac{m_2}{m_1}e^{-\frac{1}{2}(2(\mu_1-\mu_2)^T \Sigma^{-1}x+(\mu_2-\mu_1)^T\Sigma^{-1}(\mu_2-\mu_1))}} P1=1+m1m2e21[(xμ2)TΣ1(xμ2)(xμ1)TΣ1(xμ1)]1=1+m1m2e21(2(μ1μ2)TΣ1x+(μ2μ1)TΣ1(μ2μ1))1

我们将 P 1 P_1 P1设置为 1 1 + e − z \frac{1}{1+e^{-z}} 1+ez1(logistic function)
那么:
z = − 1 2 [ 2 ( μ 1 − μ 2 ) T Σ − 1 x + ( μ 2 − μ 1 ) T Σ − 1 ( μ 2 − μ 1 ) ] + l n ( m 2 m 1 ) z=-\frac{1}{2}[2(\mu_1-\mu_2)^T \Sigma^{-1}x+(\mu_2-\mu_1)^T\Sigma^{-1}(\mu_2-\mu_1)]+ln(\frac{m_2}{m_1}) z=21[2(μ1μ2)TΣ1x+(μ2μ1)TΣ1(μ2μ1)]+ln(m1m2)
可以将其看作: z = w x + b z=wx+b z=wx+b
最后可以得到: P 1 = 1 1 + e w x + b P_1=\frac{1}{1+e^{wx+b}} P1=1+ewx+b1 和下文中的逻辑回归结果相似但是需要注意的是:以上部分是基于贝叶斯原理,有假设 P ( Y = c 1 ) P(Y=c_1) P(Y=c1) P ( Y = c 2 ) P(Y=c_2) P(Y=c2)。但是下文的逻辑回归是判别模型,没有这样的假设。相对来说 w x + b wx+b wx+b的范围会更宽一些。因此,两者得到的 w , b 一般是不同的。 {w,b}一般是不同的。 w,b一般是不同的。

逻辑回归 logistic regression

二项逻辑回归

虽然名字叫回归,但实际是一个分类模型,直接得到 P ( Y ∣ X ) P(Y|X) P(YX),随机变量Y取值为0或1。
P ( Y = 1 ∣ X ) = e w x + b 1 + e w x + b P(Y=1|X)=\frac{e^{wx+b}}{1+e^{wx+b}} P(Y=1∣X)=1+ewx+bewx+b
P ( Y = 0 ∣ X ) = 1 1 + e w x + b P(Y=0|X)=\frac{1}{1+e^{wx+b}} P(Y=0∣X)=1+ewx+b1
如果说 几率是指 事件发生的概率 与 该事件不发生的概率的比值。 那么,如果事件发生的概率是p,那么该事件的几率就是 p 1 − p \frac{p}{1-p} 1pp,对数几率是 l o g i t ( p ) = l o g   p 1 − p logit(p)=log \ \frac{p}{1-p} logit(p)=log 1pp.
那么,对于二项逻辑回归而言, l o g P ( Y = 1 ∣ X ) 1 − P ( Y = 1 ∣ X ) = w x + b log \frac{P(Y=1|X)}{1-P(Y=1|X)}=wx+b log1P(Y=1∣X)P(Y=1∣X)=wx+b。 也就是说,我们得到的参数 w , b w,b w,b决定了变量 x x x是0还是1的比率,决定了相对的概率。 w x + b wx+b wx+b越接近正无穷,Y=1的概率就会越接近1;如果越接近负无穷,Y=0的概率就会月接近1。

参数模型估计

我们假设 P ( Y = 1 ∣ x ) = π ( x ) , P ( Y = 0 ∣ x ) = 1 − π ( x ) P(Y=1|x)=\pi(x),P(Y=0|x)=1-\pi(x) P(Y=1∣x)=π(x),P(Y=0∣x)=1π(x),那么似然函数就是:
L = ∑ i = 1 N π ( x i ) y i [ 1 − π ( x i ) ] 1 − y i L=\sum_{i=1}^N \pi(x_i)^{y_i}[1-\pi(x_i)]^{1-y_i} L=i=1Nπ(xi)yi[1π(xi)]1yi
对应的对数似然估计就是:
l o g   L = ∑ i = 1 N [ y i l o g   π ( x i ) + ( 1 − y i ) l o g ( 1 − π ( x i ) ) ] = ∑ i = 1 N [ y i ( w x i + b ) − l o g ( 1 + e w x + b ) ] log \ L =\sum_{i=1}^N [y_i log\ \pi(x_i)+(1-y_i)log (1-\pi(x_i))]=\sum_{i=1}^N [y_i(wx_i+b)-log(1+e^{wx+b})] log L=i=1N[yilog π(xi)+(1yi)log(1π(xi))]=i=1N[yi(wxi+b)log(1+ewx+b)]
然后就可以使用SGD求解 w , b w,b w,b
实际上logistic regression就是perceptron+sigmoid activation function。

多项逻辑回归

输出一共有K种 1 , 2 , … , K {1,2,\dots,K} 1,2,,K.
那么,对于 k = 1 , 2 , … , K − 1 k=1,2,\dots,K-1 k=1,2,,K1,对应的 P ( Y = k ∣ x ) = e w k x + b k 1 + ∑ i = 1 K − 1 e w i x + b i P(Y=k|x)=\frac{e^{w_k x+b_k}}{1+\sum_{i=1}^{K-1} e^{w_i x+b_i}} P(Y=kx)=1+i=1K1ewix+biewkx+bk
对于 k = K k=K k=K来说,对应的 P ( Y = K ∣ x ) = 1 1 + ∑ i = 1 K − 1 e w i x + b i P(Y=K|x)=\frac{1}{1+\sum_{i=1}^{K-1}e^{w_i x +b_i}} P(Y=Kx)=1+i=1K1ewix+bi1

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值