机器学习中数据集大多呈正态分布?——看西瓜书的疑问

本文探讨了数据集被视为正态分布的原因。从大量自然事件中,数据趋向于近似服从正态分布。此外,通过中心极限定理,可以将数据集转换为正态分布,重点关注期望与方差等特征。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

在西瓜书中,尤其是第二章 模型评估与选择中,数据集常被认为是服从正态分布,而书中未给出正态分布的严格证明或简要说明。这种情况下,为什么数据集被认为是正态分布是合理的?
从第一个角度理解,在大多数自然事件中,当数据量大到一定程度时,数据往往都近似服从于正态分布。并且,正态分布拥有许多优越的性质。
从第二个角度理解,我们不强行在一开始接受正态分布的设定。在实际运用中,我们更关注数据集的期望和方差这些特征量。当我们求出了期望与方差,可以利用中心极限定理转换为正态分布。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值