在西瓜书中,尤其是第二章 模型评估与选择中,数据集常被认为是服从正态分布,而书中未给出正态分布的严格证明或简要说明。这种情况下,为什么数据集被认为是正态分布是合理的?
从第一个角度理解,在大多数自然事件中,当数据量大到一定程度时,数据往往都近似服从于正态分布。并且,正态分布拥有许多优越的性质。
从第二个角度理解,我们不强行在一开始接受正态分布的设定。在实际运用中,我们更关注数据集的期望和方差这些特征量。当我们求出了期望与方差,可以利用中心极限定理转换为正态分布。
机器学习中数据集大多呈正态分布?——看西瓜书的疑问
最新推荐文章于 2024-11-13 21:50:45 发布