作者课堂笔记 humminwang@163.com
假设检验(Hypothesis Testing)
Y
=
{
0
,
1
}
Y=\{0,1\}
Y={0,1},数据
X
X
X是独立同分布从
P
(
X
∣
Y
=
0
)
P(X|Y=0)
P(X∣Y=0)或
P
(
X
∣
Y
=
1
)
P(X|Y=1)
P(X∣Y=1)产生。
X
=
(
x
1
,
x
2
,
.
.
.
.
,
x
n
)
∈
X
n
X=(x_1,x_2,....,x_n)\in X^n
X=(x1,x2,....,xn)∈Xn
问题: 给定观测数据 X = ( x 1 , . . . x n ) X=(x_1,...x_n) X=(x1,...xn),预测 Y Y Y,同时才能使。
H
0
:
X
∼
i
i
d
P
X
=
P
(
X
∣
Y
=
0
)
→
P
0
H_0:\quad X\sim iid\quad P_X=P(X|Y=0)\quad \rightarrow P_0
H0:X∼iidPX=P(X∣Y=0)→P0
H
1
:
X
∼
i
i
d
Q
X
=
P
(
X
∣
Y
=
1
)
→
P
1
H_1:\quad X\sim iid\quad Q_X=P(X|Y=1)\quad \rightarrow P_1
H1:X∼iidQX=P(X∣Y=1)→P1
P
(
H
0
∣
x
1
,
.
.
.
x
n
)
=
P
(
x
1
,
.
.
.
,
x
n
∣
H
0
)
P
0
P
(
x
1
,
.
.
.
,
x
n
)
=
P
X
(
x
1
)
P
X
(
x
2
)
.
.
.
P
X
(
x
n
)
P
0
P
(
x
1
,
.
.
.
,
x
n
)
P(H_0|x_1,...x_n)=\frac{P(x_1,...,x_n|H_0)P_0}{P(x_1,...,x_n)}=\frac{P_X(x_1)P_X(x_2)...P_X(x_n)P_0}{P(x_1,...,x_n)}
P(H0∣x1,...xn)=P(x1,...,xn)P(x1,...,xn∣H0)P0=P(x1,...,xn)PX(x1)PX(x2)...PX(xn)P0
P
(
H
1
∣
x
1
,
.
.
.
x
n
)
=
P
(
x
1
,
.
.
.
,
x
n
∣
H
0
)
P
0
P
(
x
1
,
.
.
.
,
x
n
)
=
Q
X
(
x
1
)
Q
X
(
x
2
)
.
.
.
Q
X
(
x
n
)
P
1
P
(
x
1
,
.
.
.
,
x
n
)
P(H_1|x_1,...x_n)=\frac{P(x_1,...,x_n|H_0)P_0}{P(x_1,...,x_n)}=\frac{Q_X(x_1)Q_X(x_2)...Q_X(x_n)P_1}{P(x_1,...,x_n)}
P(H1∣x1,...xn)=P(x1,...,xn)P(x1,...,xn∣H0)P0=P(x1,...,xn)QX(x1)QX(x2)...QX(xn)P1
化简后:
l
o
g
P
X
(
x
1
)
Q
X
(
x
1
)
P
X
(
x
2
)
Q
X
(
x
2
)
.
.
.
.
P
X
(
x
n
)
Q
X
(
x
n
)
(
1
)
log\frac{P_X(x_1)}{Q_X(x_1)}\frac{P_X(x_2)}{Q_X(x_2)}....\frac{P_X(x_n)}{Q_X(x_n)}\quad(1)
logQX(x1)PX(x1)QX(x2)PX(x2)....QX(xn)PX(xn)(1)
l
o
g
P
1
P
0
(
2
)
log\frac{P_1}{P_0}\quad (2)
logP0P1(2)
当
(
1
)
>
(
2
)
(1)>(2)
(1)>(2),
H
0
H_0
H0成立,反之
H
1
H_1
H1成立。
最优决策下的错误概率(Error Probability Of Optimal Decision)
- 第一类错误 H 0 H_0 H0是对的,但是采用了 H 1 H_1 H1。
- 第二类错误 H 1 H_1 H1是对的,但是采取了 H 0 H_0 H0。
P
(
Q
(
x
)
∣
(
x
1
,
.
.
.
x
n
)
∼
P
X
)
=
∑
x
∼
Q
(
x
)
P
X
(
x
1
)
P
X
(
x
2
)
.
.
.
P
X
(
x
n
)
P(Q(x)|(x_1,...x_n)\sim P_X)=\sum_{x\sim Q(x)}P_X(x_1)P_X(x_2)...P_X(x_n)
P(Q(x)∣(x1,...xn)∼PX)=x∼Q(x)∑PX(x1)PX(x2)...PX(xn)
化简
x
∼
{
1
,
.
.
.
,
k
}
,
Q
X
(
i
)
=
q
i
x\sim \{1,...,k\},Q_X(i)=q_i
x∼{1,...,k},QX(i)=qi
n
q
1
nq_1
nq1意味着类别为1的数据个数。
上式则可以化简为:
=
∑
P
X
n
q
1
(
1
)
P
X
n
q
2
(
2
)
.
.
.
.
P
X
n
q
k
(
k
)
=\sum P_X^{nq_1}(1)P_X^{nq_2}(2)....P_X^{nq_k}(k)
=∑PXnq1(1)PXnq2(2)....PXnqk(k)
=
∏
i
=
1
k
P
X
(
i
)
=
e
∑
i
=
1
k
n
q
i
l
o
g
P
X
(
i
)
=\prod_{i=1}^kP_X(i)=e^{\sum_{i=1}^knq_ilogP_X(i)}
=i=1∏kPX(i)=e∑i=1knqilogPX(i)
利用K-L散度来衡量Q和P分布之间的差异。
K-L散度又叫相对熵,K-L散度能帮助我们度量使用一个分布来近似另一个分布时所损失的信息。
更好理解参考博文https://www.jianshu.com/p/43318a3dc715?from=timeline&isappinstalled=0
有多少
X
X
X具有
Q
X
Q_X
QX分布?
X
=
(
x
1
,
x
2
,
.
.
.
,
x
n
)
X=(x_1,x_2,...,x_n)
X=(x1,x2,...,xn)
C
n
n
q
1
C
n
−
n
q
1
n
q
2
.
.
.
.
C
n
−
n
q
1
−
n
q
2
.
.
.
.
n
q
k
−
1
n
q
k
C_n^{nq_1}C_{n-nq_1}^{nq_2}....C_{n-nq_1-nq_2....nq_{k-1}}^{nq_k}
Cnnq1Cn−nq1nq2....Cn−nq1−nq2....nqk−1nqk
=
n
!
(
n
q
1
)
!
.
.
.
(
n
q
k
)
!
=\frac{n!}{(nq_1)!...(nq_k)!}
=(nq1)!...(nqk)!n!
n
!
=
2
π
n
(
n
e
)
n
n!=\sqrt{2\pi n}(\frac{n}{e})^n
n!=2πn(en)n,化简:
=
e
−
∑
i
=
1
k
q
i
l
o
g
q
i
=
e
n
H
(
Q
X
)
=e^{-\sum_{i=1}^kq_ilogq_i}=e^{nH(Q_X)}
=e−∑i=1kqilogqi=enH(QX)
所以:
P
(
X
∼
Q
X
∣
X
i
i
d
P
X
)
=
e
−
∑
i
=
1
k
q
i
l
o
g
q
i
+
∑
i
=
1
k
q
i
l
o
g
P
X
(
i
)
P(X\sim Q_X|X \quad iid \quad P_X)=e^{-\sum_{i=1}^kq_ilogq_i+\sum_{i=1}^kq_ilogP_X(i)}
P(X∼QX∣XiidPX)=e−∑i=1kqilogqi+∑i=1kqilogPX(i)
=
e
(
−
n
D
(
Q
X
∣
∣
P
X
)
)
=e^{(-nD(Q_X||P_X))}
=e(−nD(QX∣∣PX))