令人头大的
近日在看why machine learning works 这篇paper,就看懂了点皮毛。里面涉及大量的概率推导,层层定理引用。paper奉上,why machine learning works
框架定义
paper里面把所有machine learnig 定义为一个在有限空间中搜索目标的框架。将机器学习问题定义为搜索问题。
那么什么样的搜索是有效,这里就引出了搜索的成功概率;
概率
paper里面把搜索成功的概率通过信息熵和贝叶斯来表示;
- D ( P T ∣ ∣ U T ) D(P_{T} || U_{T}) D(PT∣∣UT)是目标t的分布于uniform分布的KL散度衡量;表示目标的可预测性如何,越接近uniform分布,预测性越差,如果spike越多,那么我们可以集中精力在spike上面,预测难度下降;
- I ( T ; F ) I(T;F) I(T;F) 是目标和信息源(可以看做特征)的互信息,互信息越高则可以推断的可能性越高;
-
I
Ω
I_{\Omega}
IΩ是目标维度与搜索空间维度的关系,代表找到目标的难度。
具体论证过程可以在paper里面找;
机器学习的概率
那么为什么机器学习能提高这个概率呢;
I
L
I_{L}
IL 信息损失,$ I(T;F) − I(T;X)$ 从F里面抽取出信息X,这一步中损失的信息量
E
X
[
D
(
P
T
∣
Z
=
1
,
X
)
∣
∣
U
T
∣
Z
=
1
,
X
]
E_{X} [D(P_{T|Z=1,X})||U_{T|Z=1,X}]
EX[D(PT∣Z=1,X)∣∣UT∣Z=1,X]表示是structural predictability (这里没怎么看懂)
C
r
C_{r}
Cr可以看做是为了使得概率分布在0-1上面而进行的操作