why machine learning works

本文深入探讨了机器学习为何能工作,通过概率框架定义了机器学习问题为搜索问题,并使用信息熵、贝叶斯和KL散度等概念衡量搜索成功率。文章详细分析了目标预测性、信息源互信息及目标维度与搜索空间维度的关系,揭示了机器学习提升搜索概率的内在机制。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

令人头大的

近日在看why machine learning works 这篇paper,就看懂了点皮毛。里面涉及大量的概率推导,层层定理引用。paper奉上,why machine learning works

框架定义

paper里面把所有machine learnig 定义为一个在有限空间中搜索目标的框架。将机器学习问题定义为搜索问题。
模型在空间里的搜索

那么什么样的搜索是有效,这里就引出了搜索的成功概率;

概率

paper里面把搜索成功的概率通过信息熵和贝叶斯来表示;
概率的定义

  • D ( P T ∣ ∣ U T ) D(P_{T} || U_{T}) D(PTUT)是目标t的分布于uniform分布的KL散度衡量;表示目标的可预测性如何,越接近uniform分布,预测性越差,如果spike越多,那么我们可以集中精力在spike上面,预测难度下降;
  • I ( T ; F ) I(T;F) I(T;F) 是目标和信息源(可以看做特征)的互信息,互信息越高则可以推断的可能性越高;
  • I Ω I_{\Omega} IΩ是目标维度与搜索空间维度的关系,代表找到目标的难度。
    具体论证过程可以在paper里面找;

机器学习的概率

那么为什么机器学习能提高这个概率呢;
机器学习下的概率
I L I_{L} IL 信息损失,$ I(T;F) − I(T;X)$ 从F里面抽取出信息X,这一步中损失的信息量
E X [ D ( P T ∣ Z = 1 , X ) ∣ ∣ U T ∣ Z = 1 , X ] E_{X} [D(P_{T|Z=1,X})||U_{T|Z=1,X}] EX[D(PTZ=1,X)UTZ=1,X]表示是structural predictability (这里没怎么看懂)
C r C_{r} Cr可以看做是为了使得概率分布在0-1上面而进行的操作

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值