为什么机器学习中常常假设数据是独立同分布的？

最新推荐文章于 2025-10-05 11:00:02 发布

原创最新推荐文章于 2025-10-05 11:00:02 发布 · 4.6k 阅读

·

3

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

机器学习专栏收录该内容

83 篇文章

订阅专栏

本文探讨了独立同分布(i.i.d.)的概念及其在机器学习领域的重要性，解释了为何需要此假设来确保训练数据的总体代表性，从而提高模型对未来数据预测的准确性。同时，讨论了在某些情况下，机器学习不再严格依赖于i.i.d.假设。

1、基本概念

（1）独立：每次抽样之间没有关系，不会相互影响

举例：给一个骰子，每次抛骰子抛到几就是几，这是独立；如果我要抛骰子两次之和大于8，那么第一次和第二次抛就不独立，因为第二次抛的结果和第一次相关。

（2）同分布：每次抽样，样本服从同一个分布

意味着X1和X2具有相同的分布形状和相同的分布参数，对离散随机变量具有相同的分布律，对连续随机变量具有相同的概率密度函数，有着相同的分布函数，相同的期望、方差

举例：给一个骰子，每次抛骰子得到任意点数的概率都是六分之一，这个就是同分布

（3）独立同分布：i,i,d，每次抽样之间独立而且同分布

在概率统计理论中，如果变量序列或者其他随机变量有相同的概率分布，并且互相独立，那么这些随机变量是独立同分布。

在西瓜书中解释是：输入空间 640?wx_fmt=other 中的所有样本服从一个隐含未知的分布，训练数据所有样本都是独立地从这个分布上采样而得。

2、机器学习领域的重要假设

好了，那为啥非要有这个假设呢？

我们知道，机器学习就是利用当前获取到的信息（或数据）进行训练学习，用以对未来的数据进行预测、模拟。所以都是建立在历史数据之上，采用模型去拟合未来的数据。因此需要我们使用的历史数据具有总体的代表性。

为什么要有总体代表性？我们要从已有的数据（经验）中总结出规律来对未知数据做决策，如果获取训练数据是不具有总体代表性的，就是特例的情况，那规律就会总结得不好或是错误，因为这些规律是由个例推算的，不具有推广的效果。

通过独立同分布的假设，就可以大大减小训练样本中个例的情形。

3.目前

机器学习并不总要求独立同分布，在不少问题中要求样本数据采样自同一个分布是因为希望用训练数据集得到的模型可以合理的用于测试数据集，使用独立同分布假设能够解释得通。

目前一些机器学习内容已经不再囿于独立同分布假设下，一些问题会假设样本没有同分布。

4、问题

数据集如何确保开发集和测试集的数据分布一致。比如：某个数据集有A、B、C......F6个特征。要确保数据分布一致，怎么做？

参考 http://www.sohu.com/a/257808498_717210

https://www.cnblogs.com/cloud-ken/p/778861ml 机器学习策略-不匹配的训练和开发/测试数据

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。