独立同分布

本文探讨了机器学习中独立同分布(i.i.d.)假设的重要性,解释了这一假设如何帮助确保训练数据的代表性,从而提高模型对未来数据的泛化能力。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

640?wx_fmt=gif
640?wx_fmt=gif

为什么机器学习中, 要假设我们的数据是独立同分布的?

最近在复读李航的统计学方法,又看到了“独立同分布”,觉得好奇,就开始了这个知识点的整理;

640?wx_fmt=png

首先看看百度百科对于独立同分布的解释:

独立同分布independent and identically distributed (i.i.d.)

在概率统计理论中,指随机过程中,任何时刻的取值都为随机变量,如果这些随机变量服从同一分布,并且互相独立,那么这些随机变量是独立同分布。如果随机变量X1和X2独立,是指X1的取值不影响X2的取值,X2的取值也不影响X1的取值且随机变量X1和X2服从同一分布,这意味着X1和X2具有相同的分布形状和相同的分布参数,对离随机变量具有相同的分布律,对连续随机变量具有相同的概率密度函数,有着相同的分布函数,相同的期望、方差。如实验条件保持不变,一系列的抛硬币的正反面结果是独立同分布。

640?wx_fmt=png
640?wx_fmt=png

关于独立同分布,西瓜书这样解释道:

输入空间640?wx_fmt=other中的所有样本服从一个隐含未知的分布,训练数据所有样本都是独立地从这个分布上采样而得。

640?wx_fmt=png
640?wx_fmt=png

好了,那为啥非要有这个假设呢?

我们知道,机器学习就是利用当前获取到的信息(或数据)进行训练学习,用以对未来的数据进行预测、模拟。所以都是建立在历史数据之上,采用模型去拟合未来的数据。因此需要我们使用的历史数据具有总体的代表性。

为什么要有总体代表性?我们要从已有的数据(经验) 中总结出规律来对未知数据做决策,如果获取训练数据是不具有总体代表性的,就是特例的情况,那规律就会总结得不好或是错误,因为这些规律是由个例推算的,不具有推广的效果。

通过独立同分布的假设,就可以大大减小训练样本中个例的情形。

640?wx_fmt=png
640?wx_fmt=png

机器学习并不总是要求数据同分布。在不少问题中要求样本(数据)采样自同一个分布是因为希望用训练数据集训练得到的模型可以合理用于测试集,使用同分布假设能够使得这个做法解释得通。

由于现在的机器学习方向的内容已经变得比较广,存在不少机器学习问题并不要求样本同分布,比如一些发表在机器学习方向上的online算法就对数据分布没啥要求,关心的性质也非泛化性。

640?wx_fmt=png

参考

链接:https://www.zhihu.com/question/41222495/answer/103066614

链接:https://www.zhihu.com/question/41222495/answer/103004055

### 理解独立同分布 (IID) #### 定义 在机器学习和统计学中,独立同分布(Independent and Identically Distributed, IID)是一个重要的基础假设。该假设表明数据集中的每一个观测值都是相互独立的,并且都来自于相同的一个未知的概率分布[^2]。 - **独立**:这意味着任何两个样本之间不存在关联关系;一个样本的存在或取值不影响另一个样本的发生概率。 - **同分布**:所有样本是从同一个概率分布中抽取出来的,因此它们共享相同的统计属性,比如期望值和方差等参数[^3]。 #### 应用场景 当构建预测模型时,如果能够合理地假定输入特征遵循IID,则可以简化很多计算过程以及提高估计效率。例如,在监督式学习任务里,训练集与测试集中各条记录应当尽可能保持一致性的分布特性,这样才能使得由前者得到的知识有效地迁移到后者上[^4]。 然而值得注意的是,现实中并非总是能严格满足这样的条件——尤其是在面对复杂多变的真实环境下的大数据集合时。此时就需要借助诸如领域自适应、迁移学习之类的技术手段来应对可能出现的数据偏移现象。 ```python import numpy as np # 假设有一个服从正态分布N(0, 1)的一组随机数作为我们的数据集 data_iid = np.random.normal(loc=0., scale=1., size=(1000,)) print(data_iid[:5]) # 输出前五个元素查看其是否看起来像是来自同一分布 ``` 此代码片段展示了如何生成一组符合独立同分布特性的数值序列。这里我们选择了标准正态分布 \( N(\mu,\sigma^{2}) \),其中均值\(\mu\)设定为零而标准差\(\sigma\)则设置成一。通过这种方式产生的数组`data_iid`里的各个成员理论上应该是彼此无关联的同时又具备相似的整体趋势特点。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值