【机器学习基础】机器学习中的三个技巧原则

本文介绍了奥卡姆剃刀原则在机器学习中的应用,强调了模型简单性的重要性,并探讨了抽样偏差和数据窥探对学习效果的影响。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

奥卡姆剃刀原则(Occam's Razor)

有一句话是这样说的,"An explanation of the data should be mad as simple as possible,but no simpler"。
在机器学习中其意义就是,对数据最简单的解释也就是最好的解释(The simplest model that fits the data is also the most plausible)。


比如上面的图片,右边是不是比左边解释的更好呢?显然不是这样的。

如无必要,勿增实体
奥卡姆剃刀定律,即简单有效原则,说的是,切勿浪费较多东西去做,用较少的东西,同样可以做好的事情。

所以,相比复杂的假设,我们更倾向于选择简单的、参数少的假设;同时,我们还希望选择更加简单的模型,使得有效的假设的数量不是很多。
另一种解释是,假设有一个简单的假设H,如果它可以很好的区分一组数据,那么说明这组数据确实是存在某种规律性。

抽样偏差(Sampling Bias)

If the data is sampled in a biased way,learning will produce a similarily biased outcome.
这句话告诉我们,如果抽样的数据是有偏差的,那么学习的效果也是有偏差的,这种情形称作是抽样偏差。
在实际情况中,我们需要训练数据和测试数据来自同一分布。
为了避免这样的问题,我们可以做的是要了解测试环境,让训练环境或者说是训练数据和测试环境尽可能的接近。

数据窥探(Data Snooping)

你在使用数据任何过程都是间接的窥探了数据,所以你在下决策的时候,你要知道,这些数据可能已经被你头脑中的模型复杂度所污染。
有效避免这种情况的方法有:

  • 做决定之前不要看数据
  • 要时刻存有怀疑

转载请注明作者Jason Ding及其出处
Github主页(http://jasonding1354.github.io/)
优快云博客(http://blog.youkuaiyun.com/jasonding1354)
简书主页(http://www.jianshu.com/users/2bd9b48f6ea8/latest_articles)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值