文章目录
朴素贝叶斯分类
朴素贝叶斯算法的核心是学习输入
X
X
X和输出类
Y
Y
Y的联合概率分布
P
(
X
,
Y
)
P(X,Y)
P(X,Y).
学习的方式是:学习先验概率 和 条件概率, 从而得到 后验概率。
基础知识
朴素贝叶斯基于贝叶斯原理和特征条件独立假设。
贝叶斯原理
P
(
X
,
Y
)
=
P
(
Y
)
P
(
X
∣
Y
)
P(X,Y)=P(Y)P(X|Y)
P(X,Y)=P(Y)P(X∣Y)
对于两个事件来讲,同时发生两个事件的概率 等于 发生事件Y的情况下发生X的可能性。
如果X,Y是独立的,那么
P
(
X
∣
Y
)
=
P
(
X
)
P(X|Y)=P(X)
P(X∣Y)=P(X)。
但是,很多特征实际上是有联系的,
P
(
X
∣
Y
)
≠
P
(
X
)
P(X|Y) \neq P(X)
P(X∣Y)=P(X)。
特征条件独立假设
“特征”+“条件独立”+“假设”。
这个性质是指: 对于样本的特征
X
=
{
x
(
1
)
,
x
(
2
)
,
…
,
x
(
n
)
}
X=\{{x^{(1)}},x^{(2)},\dots,x^{(n)}\}
X={x(1),x(2),…,x(n)}来说,特征与特征之间在发生
Y
Y
Y的条件下是独立的。
对于输入
x
∈
R
n
x \in R^n
x∈Rn,输出是
Y
=
{
c
1
,
c
2
,
…
,
c
k
}
Y=\{ c_1,c_2,\dots, c_k\}
Y={c1,c2,…,ck} ,
P
(
X
=
x
∣
Y
=
c
k
)
=
P
(
X
(
1
)
=
x
(
1
)
,
X
(
2
)
=
x
(
2
)
,
…
,
X
(
n
)
=
x
(
n
)
∣
Y
=
c
k
)
P(X=x|Y=c_k)=P(X^{(1)}=x^{(1)}, X^{(2)}=x^{(2)},\dots,X^{(n)}=x^{(n)}|Y=c_k)
P(X=x∣Y=ck)=P(X(1)=x(1),X(2)=x(2),…,X(n)=x(n)∣Y=ck)
这种普遍情况下,条件概率分布
P
(
X
=
x
∣
Y
=
c
k
)
P(X=x|Y=c_k)
P(X=x∣Y=ck)有指数级数量的参数。如果
x
(
j
)
x^{(j)}
x(j)有
S
j
S_j
Sj个可取的值,Y的可取值是K,那么参数的数量为:
K
∏
j
=
1
n
S
j
K\prod_{j=1}^n S_j
K∏j=1nSj。这种估计参数过多,是不可取的。 以下的特征条件独立假设,限制比较强,但是能够极大的减少参数数量。
如果满足特征条件独立,则可以实现:
P
(
X
=
x
∣
Y
=
c
k
)
=
P
(
X
(
1
)
=
x
(
1
)
∣
Y
=
c
k
)
P
(
X
(
2
)
=
x
(
2
)
∣
Y
=
c
k
)
…
P
(
X
(
n
)
=
x
(
n
)
∣
Y
=
c
k
)
=
∏
j
=
1
n
P
(
X
(
j
)
=
x
(
j
)
∣
Y
=
c
k
)
P(X=x|Y=c_k)=P(X^{(1)}=x^{(1)}|Y=c_k) P(X^{(2)}=x^{(2)}|Y=c_k)\dots P(X^{(n)}=x^{(n)}|Y=c_k)=\prod_{j=1}^n P(X^{(j)}=x^{(j)}|Y=c_k)
P(X=x∣Y=ck)=P(X(1)=x(1)∣Y=ck)P(X(2)=x(2)∣Y=ck)…P(X(n)=x(n)∣Y=ck)=j=1∏nP(X(j)=x(j)∣Y=ck)
虽然实际上,不同特征之间在满足
c
k
c_k
ck的情况下 有可能存在联系,但是这样子的假设 在损失一定准确性的情况下简化了模型。
在这种情况下,条件概率分布的参数数量是
K
∑
j
=
1
n
S
j
K \sum_{j=1}^n S_j
K∑j=1nSj
PS: 特征条件独立 和 独立同分布区别
独立同分布是指 不同样本点
(
x
1
,
c
1
)
…
(
x
2
,
c
1
)
(x_1,c_1) \dots (x_2,c_1)
(x1,c1)…(x2,c1) 之间的采集是 没有依赖关系,同时满足一个概率分布。 没有依赖关系是指 样本点的产生是独立的,没有时序关系。 同一个概率分布是指 样本点 不是多个分布产生的,而是一个分布产生的。
特征条件独立 是指 样本中的特征。
基本方法
对于我们想要知道的样本点 x x x,对于不同的类 { c 1 , c 2 , … , c k } \{ c_1,c_2,\dots,c_k\} {c1,c2,…,ck},我们总可以生成对应的概率 P ( Y = c j ∣ X = x ) P(Y=c_j|X=x) P(Y=cj∣X=x),表示 我们有样本点 x x x,样本点属于 c j c_j cj类的概率。
根据贝叶斯定理,我们知道:
P
(
X
,
Y
)
=
P
(
X
)
P
(
Y
∣
X
)
=
P
(
Y
)
P
(
X
∣
Y
)
P(X,Y)=P(X)P(Y|X)=P(Y)P(X|Y)
P(X,Y)=P(X)P(Y∣X)=P(Y)P(X∣Y)
P
(
Y
∣
X
)
=
P
(
Y
)
P
(
X
∣
Y
)
P
(
X
)
P(Y|X)=\frac{P(Y)P(X|Y)}{P(X)}
P(Y∣X)=P(X)P(Y)P(X∣Y)
因此,
P
(
Y
=
c
j
∣
X
=
x
)
=
P
(
Y
=
c
j
)
P
(
X
=
x
∣
Y
=
c
j
)
∑
i
=
1
k
P
(
Y
=
c
i
)
P
(
X
=
x
∣
Y
=
c
i
)
=
P
(
Y
=
c
j
)
∏
l
=
1
n
P
(
X
(
l
)
=
x
(
l
)
∣
Y
=
c
j
)
∑
i
=
1
k
P
(
Y
=
c
i
)
∏
l
=
1
n
P
(
X
(
l
)
=
x
(
l
)
∣
Y
=
c
i
)
P(Y=c_j|X=x)=\frac{P(Y=c_j) P(X=x|Y=c_j)}{\sum_{i=1}^k P(Y=c_i)P(X=x|Y=c_i)}=\frac{P(Y=c_j) \prod_{l=1}^n P(X^{(l)}=x^{(l)}|Y=c_j) }{ \sum_{i=1}^k P(Y=c_i)\prod_{l=1}^n P(X^{(l)}=x^{(l)}|Y=c_i) }
P(Y=cj∣X=x)=∑i=1kP(Y=ci)P(X=x∣Y=ci)P(Y=cj)P(X=x∣Y=cj)=∑i=1kP(Y=ci)∏l=1nP(X(l)=x(l)∣Y=ci)P(Y=cj)∏l=1nP(X(l)=x(l)∣Y=cj)
最后,我们选择
c
j
c_j
cj中概率最大的类作为
x
x
x的类。
y
=
f
(
x
)
=
a
r
g
m
a
x
c
k
P
(
Y
=
c
k
)
y=f(x)=arg \ max_{c_k} \ P(Y=c_k)
y=f(x)=arg maxck P(Y=ck)
因为分母对于所有类实际上是一致的,所以,我们实际使用的是:
y
=
a
r
g
m
a
x
c
j
P
(
Y
=
c
j
)
∏
l
=
1
n
P
(
X
(
l
)
=
x
(
l
)
∣
Y
=
c
j
)
y=arg \ max_{c_j} \ P(Y=c_j) \prod_{l=1}^n P(X^{(l)}=x^{(l)}|Y=c_j)
y=arg maxcj P(Y=cj)∏l=1nP(X(l)=x(l)∣Y=cj)
后验概率最大的含义
我们采用 0-1损失函数,对于期望风险求最小
P
e
x
p
=
E
[
L
(
Y
,
f
(
X
)
)
]
=
∫
P
(
X
,
Y
)
L
(
Y
,
f
(
X
)
)
=
∫
∑
k
=
1
K
P
(
c
k
∣
X
)
P
(
X
)
L
(
c
k
,
f
(
X
)
)
=
∑
k
=
1
K
E
X
[
L
(
c
k
,
f
(
X
)
)
]
P
(
c
k
∣
X
)
P_{exp}=E[L(Y,f(X))] =\int P(X,Y) L(Y,f(X)) = \int \sum_{k=1}^K P(c_k|X)P(X)L(c_k,f(X)) = \sum_{k=1}^K E_X[L(c_k,f(X))]P(c_k|X)
Pexp=E[L(Y,f(X))]=∫P(X,Y)L(Y,f(X))=∫k=1∑KP(ck∣X)P(X)L(ck,f(X))=k=1∑KEX[L(ck,f(X))]P(ck∣X)
为了让期望风险最小,因为样本之间是独立的,我们 只需要 逐个对
X
=
x
X=x
X=x取最小:
f
(
x
)
=
a
r
g
m
i
n
y
∈
Y
∑
k
=
1
K
L
(
c
k
,
y
)
P
(
c
k
∣
X
=
x
)
=
a
r
g
m
i
n
y
∈
Y
∑
k
=
1
K
P
(
y
≠
c
k
∣
X
=
x
)
=
a
r
g
m
i
n
y
∈
Y
(
1
−
P
(
y
=
c
k
∣
X
=
x
)
)
=
a
r
g
m
a
x
y
∈
Y
P
(
c
k
∣
X
=
x
)
f(x)=arg\ min_{y\in Y}\sum_{k=1}^K L(c_k,y) P(c_k|X=x) =arg \ min_{y \in Y}\sum_{k=1}^K P(y \neq c_k|X=x)=arg \ min_{y \in Y} (1 - P(y = c_k|X=x)) = arg\ max_{y \in Y} P(c_k|X=x)
f(x)=arg miny∈Yk=1∑KL(ck,y)P(ck∣X=x)=arg miny∈Yk=1∑KP(y=ck∣X=x)=arg miny∈Y(1−P(y=ck∣X=x))=arg maxy∈YP(ck∣X=x)
极大似然估计
我们在朴素贝叶斯方法中需要对
P
(
Y
=
c
k
)
P(Y=c_k)
P(Y=ck)和
P
(
X
(
j
)
=
x
(
j
)
∣
Y
=
c
k
)
P(X^{(j)}=x^{(j)}|Y=c_k)
P(X(j)=x(j)∣Y=ck)进行估计。
更加准确的描述: 我们在有n个样本
{
(
x
1
,
y
1
)
,
…
,
(
x
n
,
y
n
)
}
\{ (x_1,y_1),\dots, (x_n,y_n) \}
{(x1,y1),…,(xn,yn)},我们需要估计
P
(
Y
=
c
k
)
P(Y=c_k)
P(Y=ck)和
P
(
X
(
j
)
=
x
(
j
)
∣
Y
=
c
k
)
P(X^{(j)}=x^{(j)}|Y=c_k)
P(X(j)=x(j)∣Y=ck)的概率。 估计的方法是最大似然估计。
离散型的最大似然估计
当我们有n个样本
{
x
1
,
x
2
,
…
,
x
n
}
\{x_1,x_2,\dots, x_n \}
{x1,x2,…,xn},
x
x
x取值是离散的k种
{
1
,
2
,
…
,
k
}
\{1,2,\dots,k \}
{1,2,…,k},我们知道 每次采样得到的结果是第
i
i
i个的概率分布是
p
i
p_i
pi。 满足
∑
i
=
1
k
p
i
=
1
\sum_{i=1}^k p_i=1
∑i=1kpi=1。
我们的目标是求出 n个样本(观测值)下,
p
i
p_i
pi是多少。
我们假设
P
(
X
=
x
i
)
=
p
(
x
i
)
=
p
x
i
P(X=x_i)=p(x_i) = p_{x_i}
P(X=xi)=p(xi)=pxi,
(
X
1
,
X
2
,
…
,
X
n
)
(X_1,X_2,\dots, X_n)
(X1,X2,…,Xn)是取自于总体的样本容量为n的样本,那么
(
X
1
,
X
2
,
…
,
X
n
)
(X_1,X_2, \dots,X_n)
(X1,X2,…,Xn)的联合概率是
∏
i
=
1
n
p
x
i
\prod_{i=1}^n p_{x_i}
∏i=1npxi,这就是样本的似然函数。
L
=
∏
i
=
1
n
p
x
i
L=\prod_{i=1}^n p_{x_i}
L=i=1∏npxi
最大似然估计就是假设: 我们的分布就是使得我们的观测最有可能出现的分布(最有可能出现:最大似然)。
目标:
a
r
g
m
a
x
p
1
,
…
,
p
k
L
arg \ max_{p_1,\dots,p_k} \ L
arg maxp1,…,pk L
限制:
∑
i
=
1
k
p
i
=
1
\sum_{i=1}^k p_i=1
∑i=1kpi=1
L
=
∏
x
i
=
1
k
p
x
i
m
x
i
L = \prod_{x_i=1}^k p_{x_i}^{m_{x_i}}
L=∏xi=1kpximxi, 其中
m
x
i
m_{x_i}
mxi 表示
x
i
x_i
xi这个值出现的次数,满足
∑
i
=
1
k
m
i
=
N
\sum_{i=1}^k m_i=N
∑i=1kmi=N。
等同于
l
o
g
L
=
∑
i
=
1
k
m
i
l
o
g
p
i
log \ L=\sum_{i=1}^k m_i log\ p_i
log L=∑i=1kmilog pi ,在满足
∑
i
=
1
k
p
i
=
1
\sum_{i=1}^k p_i=1
∑i=1kpi=1和
∑
i
=
1
k
m
i
=
N
\sum_{i=1}^{k} m_i=N
∑i=1kmi=N条件下求最大。
经过拉格朗日乘数,最后可以得到
p
i
=
m
i
N
p_i=\frac{m_i}{N}
pi=Nmi。
概率实际上就是每个值出现的比例。
连续型的最大似然估计
我们也是假设 我们得到了N个样本
x
1
,
x
2
,
…
,
x
n
{x_1,x_2,\dots,x_n}
x1,x2,…,xn,
X
X
X取值范围是连续的,
P
{
X
=
x
}
=
f
(
x
;
θ
)
P\{X=x\}=f(x;\theta)
P{X=x}=f(x;θ)(概率密度),满足
∫
X
f
(
x
;
θ
)
=
1
\int_X f(x;\theta)=1
∫Xf(x;θ)=1。
θ
\theta
θ是可以改变的,可以实现不同的概率分布。[注意参数空间和分布空间的区别: 我们实际上是在参数空间中取值,实现样本在分布空间的概率最大]。
(
X
1
,
X
2
,
…
,
X
n
)
(X_1,X_2,\dots,X_n)
(X1,X2,…,Xn)的联合概率分布就是
L
(
θ
)
=
L
(
x
1
,
x
2
,
…
,
x
n
;
θ
)
=
∏
i
=
1
n
f
(
x
i
;
θ
)
L(\theta)=L(x_1,x_2,\dots,x_n;\theta)=\prod_{i=1}^n f(x_i;\theta)
L(θ)=L(x1,x2,…,xn;θ)=∏i=1nf(xi;θ)
θ
=
a
r
g
m
a
x
θ
L
(
θ
)
\theta = arg \ max_\theta\ L(\theta)
θ=arg maxθ L(θ)
如果我们假设,我们的分布满足多元高斯分布:
N
(
μ
,
Σ
)
N(\mu,\Sigma)
N(μ,Σ),我们实际上就是在
{
μ
,
Σ
}
\{ \mu,\Sigma \}
{μ,Σ}的参数空间中寻找 满足最大似然的分布。
L
=
∏
i
=
1
n
1
(
2
π
)
k
∣
Σ
∣
e
−
1
2
(
x
i
−
μ
)
T
Σ
−
1
(
x
i
−
μ
)
L=\prod_{i=1}^n \frac{1}{\sqrt{(2 \pi)^k | \Sigma |}}e^{-\frac{1}{2}(x_i-\mu)^T \Sigma^{-1}(x_i-\mu)}
L=i=1∏n(2π)k∣Σ∣1e−21(xi−μ)TΣ−1(xi−μ)
m
i
n
μ
,
Σ
l
o
g
L
=
∑
i
=
1
n
−
1
2
[
(
x
i
−
μ
)
T
Σ
−
1
(
x
i
−
μ
)
+
l
n
∣
Σ
∣
]
min_{\mu,\Sigma} \ log \ L = \sum_{i=1}^n -\frac{1}{2}[(x_i-\mu)^T \Sigma^{-1} (x_i-\mu)+ln|\Sigma|]
minμ,Σ log L=i=1∑n−21[(xi−μ)TΣ−1(xi−μ)+ln∣Σ∣]
最终可以得到:
μ
=
∑
i
=
1
N
x
i
N
\mu =\frac{\sum_{i=1}^N x_i}{N}
μ=N∑i=1Nxi
Σ
=
1
N
∑
i
=
1
,
j
=
1
N
(
x
i
−
μ
)
T
(
x
j
−
μ
)
\Sigma=\frac{1}{N}\sum_{i=1,j=1}^N(x_i-\mu)^T (x_j-\mu)
Σ=N1i=1,j=1∑N(xi−μ)T(xj−μ)
朴素贝叶斯中的最大似然估计
P
(
Y
=
c
k
)
=
∑
i
=
1
N
I
(
y
i
=
c
k
)
N
,
k
=
1
,
2
,
…
,
K
P(Y=c_k)=\frac{\sum_{i=1}^N I(y_i=c_k)}{N},k=1,2,\dots,K
P(Y=ck)=N∑i=1NI(yi=ck),k=1,2,…,K
P
(
X
(
j
)
=
a
j
l
∣
Y
=
c
k
)
=
∑
i
=
1
N
I
(
x
i
(
j
)
=
a
j
l
,
y
i
=
c
k
)
∑
i
=
1
N
I
(
y
i
=
c
k
)
P(X^{(j)}=a_{jl}|Y=c_k)=\frac{ \sum_{i=1}^N I(x_i^{(j)}=a_{jl},y_i=c_k) }{\sum_{i=1}^N I(y_i=c_k)}
P(X(j)=ajl∣Y=ck)=∑i=1NI(yi=ck)∑i=1NI(xi(j)=ajl,yi=ck)
贝叶斯估计
我们知道,在上述计算中 只是采用了离散型的最大似然估计。 有一个问题就是,如果说
{
x
(
1
)
,
…
,
x
(
n
)
}
\{ x^{(1)},\dots,x^{(n)} \}
{x(1),…,x(n)} 某一特征维度上 需要对一个没有出现过的值进行估计,那么条件概率为0,最终后验概率为0。这不是我们希望的,因此 贝叶斯估计解决了这一问题(假设每一个值都在)。
P
λ
(
X
(
j
)
=
a
j
l
∣
Y
=
c
k
)
=
∑
i
=
1
N
I
(
x
i
(
j
)
=
a
j
l
,
y
i
=
c
k
)
+
λ
∑
i
=
1
N
I
(
y
i
=
c
i
)
+
S
j
λ
P_\lambda (X^{(j)}=a_{jl}|Y=c_k)=\frac{\sum_{i=1}^N I(x_i^{(j)}=a_{jl},y_i=c_k)+\lambda}{ \sum_{i=1}^{N} I(y_i=c_i) +S_j \lambda }
Pλ(X(j)=ajl∣Y=ck)=∑i=1NI(yi=ci)+Sjλ∑i=1NI(xi(j)=ajl,yi=ck)+λ
同样,对于先验概率,也有:
P
λ
(
Y
=
c
k
)
=
∑
i
=
1
N
I
(
y
i
=
c
k
)
+
λ
N
+
K
λ
P_\lambda (Y=c_k)=\frac{\sum_{i=1}^N I(y_i=c_k)+\lambda}{ N+K \lambda }
Pλ(Y=ck)=N+Kλ∑i=1NI(yi=ck)+λ
Generative model for classification
我们实际上可以限定 P ( X ∣ Y ) P(X|Y) P(X∣Y)的分布类型:伯努利分布;多元高斯分布; β \beta β-二项式分布。
伯努利分布
伯努利分布只仅限于
X
X
X为两个值
{
0
,
1
}
\{0,1\}
{0,1}。
P
(
X
∣
Y
)
=
{
θ
,
1
−
θ
}
P(X|Y)=\{\theta, 1-\theta \}
P(X∣Y)={θ,1−θ}。
P
(
X
∣
C
)
=
θ
x
(
1
−
θ
)
1
−
x
P(X|C)=\theta^x (1-\theta)^{1-x}
P(X∣C)=θx(1−θ)1−x
L
=
−
l
o
g
(
p
(
x
1
,
x
2
,
…
,
x
n
∣
Y
)
)
=
−
N
c
l
o
g
(
θ
c
)
−
(
N
−
N
c
)
l
o
g
(
1
−
θ
c
)
L=-log( p(x_1,x_2,\dots , x_n|Y) )=-N_c log(\theta_c)-(N-N_c)log(1-\theta_c)
L=−log(p(x1,x2,…,xn∣Y))=−Nclog(θc)−(N−Nc)log(1−θc)
L 对于
θ
\theta
θ求导,就可以得到结果:
θ
c
=
N
c
N
\theta_c=\frac{N_c}{N}
θc=NNc
β \beta β-二项式分布
有时候我们会设置
θ
\theta
θ出现的概率:
P
(
θ
)
=
θ
a
−
1
(
1
−
θ
)
b
−
1
P(\theta)=\theta^{a-1}(1-\theta)^{b-1}
P(θ)=θa−1(1−θ)b−1
P
(
θ
∣
D
c
)
∼
P
(
D
c
∣
θ
)
P
(
θ
)
∼
θ
N
c
+
a
−
1
(
1
−
θ
)
N
−
N
c
+
b
−
1
∼
B
e
t
a
(
N
c
+
a
,
N
−
N
c
+
b
)
P(\theta|D_c)\sim P(D_c|\theta)P(\theta)\sim \theta^{N_c+a-1}(1-\theta)^{N-N_c+b-1}\sim Beta(N_c+a,N-N_c+b)
P(θ∣Dc)∼P(Dc∣θ)P(θ)∼θNc+a−1(1−θ)N−Nc+b−1∼Beta(Nc+a,N−Nc+b)
此时,我们结合我们的先验
P
(
θ
)
P(\theta)
P(θ)和 分布的最大概率,得到了 样本分布下的
θ
\theta
θ分布的概率。 这样子,就不只将
θ
\theta
θ设置为一个值,而是多个连续值,形成一个分布。
P
(
X
=
1
∣
D
c
)
=
∫
0
1
P
(
X
=
1
∣
θ
)
P
(
θ
∣
D
c
)
=
∫
0
1
θ
P
(
θ
∣
D
c
)
=
E
[
θ
∣
D
c
]
P(X=1|D_c)=\int_0^1 P(X=1|\theta)P(\theta|D_c)=\int_0^1 \theta P(\theta|D_c)=E[\theta|D_c]
P(X=1∣Dc)=∫01P(X=1∣θ)P(θ∣Dc)=∫01θP(θ∣Dc)=E[θ∣Dc]
多元高斯分布
P
(
X
∣
Y
)
=
1
(
2
π
)
D
∣
Σ
∣
e
−
1
2
(
x
−
μ
)
T
Σ
−
1
(
x
−
μ
)
P(X|Y)=\frac{1}{ \sqrt{(2\pi)^D |\Sigma| } } e^{-\frac{1}{2} (x-\mu)^T \Sigma^{-1} (x-\mu)}
P(X∣Y)=(2π)D∣Σ∣1e−21(x−μ)TΣ−1(x−μ)
μ
=
1
N
∑
i
=
1
N
x
i
\mu=\frac{1}{N}\sum_{i=1}^N x_i
μ=N1i=1∑Nxi
Σ
i
,
j
=
C
o
v
(
X
(
i
)
,
X
(
j
)
)
=
E
[
(
X
(
i
)
−
μ
(
i
)
)
(
X
(
j
)
−
μ
(
j
)
)
]
\Sigma_{i,j}=Cov(X^{(i)},X^{(j)})=E[(X^{(i)}-\mu^{(i)}) (X^{(j)}-\mu^{(j)})]
Σi,j=Cov(X(i),X(j))=E[(X(i)−μ(i))(X(j)−μ(j))]
其中
X
(
i
)
X^{(i)}
X(i)表示 样本的第
i
i
i维的元素。
如果是一个二分类问题,根据贝叶斯定理,可以得到:
P
(
Y
=
c
1
∣
x
)
=
P
(
Y
=
c
1
)
P
(
X
=
x
∣
Y
=
c
1
)
=
m
1
N
1
(
2
π
)
D
∣
Σ
1
∣
e
−
1
2
(
x
−
μ
1
)
T
Σ
1
−
1
(
x
−
μ
1
)
P(Y=c_1|x)=P(Y=c_1)P(X=x|Y=c_1)=\frac{m_1}{N}\frac{1}{\sqrt{(2\pi)^D |\Sigma_1|} e^{-\frac{1}{2}(x-\mu_1)^T \Sigma_1^{-1}(x-\mu_1) } }
P(Y=c1∣x)=P(Y=c1)P(X=x∣Y=c1)=Nm1(2π)D∣Σ1∣e−21(x−μ1)TΣ1−1(x−μ1)1
P
(
Y
=
c
2
∣
x
)
=
P
(
Y
=
c
2
)
P
(
X
=
x
∣
Y
=
c
2
)
=
m
2
N
1
(
2
π
)
D
∣
Σ
2
∣
e
−
1
2
(
x
−
μ
2
)
T
Σ
2
−
1
(
x
−
μ
2
)
P(Y=c_2|x)=P(Y=c_2)P(X=x|Y=c_2)=\frac{m_2}{N}\frac{1}{\sqrt{(2\pi)^D |\Sigma_2|} e^{-\frac{1}{2}(x-\mu_2)^T \Sigma_2^{-1}(x-\mu_2) } }
P(Y=c2∣x)=P(Y=c2)P(X=x∣Y=c2)=Nm2(2π)D∣Σ2∣e−21(x−μ2)TΣ2−1(x−μ2)1
设置概率和为1:
P
1
=
1
1
+
m
2
∣
Σ
1
∣
m
1
∣
Σ
2
∣
e
−
1
2
[
(
x
−
μ
2
)
T
Σ
2
−
1
(
x
−
μ
2
)
−
(
x
−
μ
1
)
T
Σ
1
−
1
(
x
−
μ
1
)
]
P_1=\frac{1}{1+\frac{m_2 \sqrt{|\Sigma_1|}}{m_1 \sqrt{|\Sigma_2|}}e^{-\frac{1}{2}[ (x-\mu_2)^T\Sigma_2^{-1}(x-\mu_2)-(x-\mu_1)^T\Sigma_1^{-1}(x-\mu_1) ]}}
P1=1+m1∣Σ2∣m2∣Σ1∣e−21[(x−μ2)TΣ2−1(x−μ2)−(x−μ1)TΣ1−1(x−μ1)]1
我们设置
P
(
X
∣
Y
=
c
1
)
P(X|Y=c_1)
P(X∣Y=c1)和
P
(
X
∣
Y
=
c
2
)
P(X|Y=c_2)
P(X∣Y=c2)的协方差设置为一个:
Σ
=
m
1
N
Σ
+
m
2
N
Σ
\Sigma=\frac{m_1}{N}\Sigma+\frac{m_2}{N}\Sigma
Σ=Nm1Σ+Nm2Σ
P
1
=
1
1
+
m
2
m
1
e
−
1
2
[
(
x
−
μ
2
)
T
Σ
−
1
(
x
−
μ
2
)
−
(
x
−
μ
1
)
T
Σ
−
1
(
x
−
μ
1
)
]
=
1
1
+
m
2
m
1
e
−
1
2
(
2
(
μ
1
−
μ
2
)
T
Σ
−
1
x
+
(
μ
2
−
μ
1
)
T
Σ
−
1
(
μ
2
−
μ
1
)
)
P_1=\frac{1}{1+\frac{m_2}{m_1}e^{-\frac{1}{2}[ (x-\mu_2)^T\Sigma^{-1}(x-\mu_2)-(x-\mu_1)^T\Sigma^{-1}(x-\mu_1) ]}}=\frac{1}{1+\frac{m_2}{m_1}e^{-\frac{1}{2}(2(\mu_1-\mu_2)^T \Sigma^{-1}x+(\mu_2-\mu_1)^T\Sigma^{-1}(\mu_2-\mu_1))}}
P1=1+m1m2e−21[(x−μ2)TΣ−1(x−μ2)−(x−μ1)TΣ−1(x−μ1)]1=1+m1m2e−21(2(μ1−μ2)TΣ−1x+(μ2−μ1)TΣ−1(μ2−μ1))1
我们将
P
1
P_1
P1设置为
1
1
+
e
−
z
\frac{1}{1+e^{-z}}
1+e−z1(logistic function)
那么:
z
=
−
1
2
[
2
(
μ
1
−
μ
2
)
T
Σ
−
1
x
+
(
μ
2
−
μ
1
)
T
Σ
−
1
(
μ
2
−
μ
1
)
]
+
l
n
(
m
2
m
1
)
z=-\frac{1}{2}[2(\mu_1-\mu_2)^T \Sigma^{-1}x+(\mu_2-\mu_1)^T\Sigma^{-1}(\mu_2-\mu_1)]+ln(\frac{m_2}{m_1})
z=−21[2(μ1−μ2)TΣ−1x+(μ2−μ1)TΣ−1(μ2−μ1)]+ln(m1m2)
可以将其看作:
z
=
w
x
+
b
z=wx+b
z=wx+b
最后可以得到:
P
1
=
1
1
+
e
w
x
+
b
P_1=\frac{1}{1+e^{wx+b}}
P1=1+ewx+b1 和下文中的逻辑回归结果相似! 但是需要注意的是:以上部分是基于贝叶斯原理,有假设
P
(
Y
=
c
1
)
P(Y=c_1)
P(Y=c1)和
P
(
Y
=
c
2
)
P(Y=c_2)
P(Y=c2)。但是下文的逻辑回归是判别模型,没有这样的假设。相对来说
w
x
+
b
wx+b
wx+b的范围会更宽一些。因此,两者得到的
w
,
b
一般是不同的。
{w,b}一般是不同的。
w,b一般是不同的。
逻辑回归 logistic regression
二项逻辑回归
虽然名字叫回归,但实际是一个分类模型,直接得到
P
(
Y
∣
X
)
P(Y|X)
P(Y∣X),随机变量Y取值为0或1。
P
(
Y
=
1
∣
X
)
=
e
w
x
+
b
1
+
e
w
x
+
b
P(Y=1|X)=\frac{e^{wx+b}}{1+e^{wx+b}}
P(Y=1∣X)=1+ewx+bewx+b
P
(
Y
=
0
∣
X
)
=
1
1
+
e
w
x
+
b
P(Y=0|X)=\frac{1}{1+e^{wx+b}}
P(Y=0∣X)=1+ewx+b1
如果说 几率是指 事件发生的概率 与 该事件不发生的概率的比值。 那么,如果事件发生的概率是p,那么该事件的几率就是
p
1
−
p
\frac{p}{1-p}
1−pp,对数几率是
l
o
g
i
t
(
p
)
=
l
o
g
p
1
−
p
logit(p)=log \ \frac{p}{1-p}
logit(p)=log 1−pp.
那么,对于二项逻辑回归而言,
l
o
g
P
(
Y
=
1
∣
X
)
1
−
P
(
Y
=
1
∣
X
)
=
w
x
+
b
log \frac{P(Y=1|X)}{1-P(Y=1|X)}=wx+b
log1−P(Y=1∣X)P(Y=1∣X)=wx+b。 也就是说,我们得到的参数
w
,
b
w,b
w,b决定了变量
x
x
x是0还是1的比率,决定了相对的概率。
w
x
+
b
wx+b
wx+b越接近正无穷,Y=1的概率就会越接近1;如果越接近负无穷,Y=0的概率就会月接近1。
参数模型估计
我们假设
P
(
Y
=
1
∣
x
)
=
π
(
x
)
,
P
(
Y
=
0
∣
x
)
=
1
−
π
(
x
)
P(Y=1|x)=\pi(x),P(Y=0|x)=1-\pi(x)
P(Y=1∣x)=π(x),P(Y=0∣x)=1−π(x),那么似然函数就是:
L
=
∑
i
=
1
N
π
(
x
i
)
y
i
[
1
−
π
(
x
i
)
]
1
−
y
i
L=\sum_{i=1}^N \pi(x_i)^{y_i}[1-\pi(x_i)]^{1-y_i}
L=i=1∑Nπ(xi)yi[1−π(xi)]1−yi
对应的对数似然估计就是:
l
o
g
L
=
∑
i
=
1
N
[
y
i
l
o
g
π
(
x
i
)
+
(
1
−
y
i
)
l
o
g
(
1
−
π
(
x
i
)
)
]
=
∑
i
=
1
N
[
y
i
(
w
x
i
+
b
)
−
l
o
g
(
1
+
e
w
x
+
b
)
]
log \ L =\sum_{i=1}^N [y_i log\ \pi(x_i)+(1-y_i)log (1-\pi(x_i))]=\sum_{i=1}^N [y_i(wx_i+b)-log(1+e^{wx+b})]
log L=i=1∑N[yilog π(xi)+(1−yi)log(1−π(xi))]=i=1∑N[yi(wxi+b)−log(1+ewx+b)]
然后就可以使用SGD求解
w
,
b
w,b
w,b。
实际上logistic regression就是perceptron+sigmoid activation function。
多项逻辑回归
输出一共有K种
1
,
2
,
…
,
K
{1,2,\dots,K}
1,2,…,K.
那么,对于
k
=
1
,
2
,
…
,
K
−
1
k=1,2,\dots,K-1
k=1,2,…,K−1,对应的
P
(
Y
=
k
∣
x
)
=
e
w
k
x
+
b
k
1
+
∑
i
=
1
K
−
1
e
w
i
x
+
b
i
P(Y=k|x)=\frac{e^{w_k x+b_k}}{1+\sum_{i=1}^{K-1} e^{w_i x+b_i}}
P(Y=k∣x)=1+∑i=1K−1ewix+biewkx+bk
对于
k
=
K
k=K
k=K来说,对应的
P
(
Y
=
K
∣
x
)
=
1
1
+
∑
i
=
1
K
−
1
e
w
i
x
+
b
i
P(Y=K|x)=\frac{1}{1+\sum_{i=1}^{K-1}e^{w_i x +b_i}}
P(Y=K∣x)=1+∑i=1K−1ewix+bi1