数据科学中的描述性统计、相关性分析与对数
1. 数据科学中的模型与分布特征
在数据科学的实际应用中,常常会遇到各种难以判断的情况。比如运动员的表现,当他们经历一个出色的赛季时,往往会将其归因于自身状态的提升或训练方法的改进,而忽视了运气的因素。其实,很难区分这其中的真实信号和随机噪声。
在模型性能方面,数据科学家通常会针对每个预测问题开发和评估多个模型,这些模型的复杂度和训练条件各不相同。一般来说,在训练集上准确率最高的模型会被认为是最优模型,但实际上,模型之间的微小性能差异可能只是由简单的方差导致,而非模型本身的优劣。当面对性能差异较小的模型时,选择最简单的模型往往是更明智的做法。就像让一百个人预测抛硬币的结果,其中肯定会有一个人预测正确的次数最多,但这并不意味着他的预测能力比其他人更强。
对于分布特征的描述,均值并不一定能很好地反映分布的全貌。例如,借了 1 亿美元并全部押在抛硬币上,正面朝上会净赚 1 亿美元,反面朝上则负债 1 亿美元,此时预期财富为零,但这个均值并不能说明财富分布的形状。而均值和标准差结合起来,能更好地描述任何分布。标准差反映了数据偏离均值的程度,较小的标准差意味着大部分数据集中在均值附近。具体来说,无论数据如何分布,至少 (1 - (1/k²)) 的数据会落在均值 ±k 个标准差的范围内。例如,至少 75% 的数据会落在均值 ±2 个标准差的范围内,近 89% 的数据会落在均值 ±3 个标准差的范围内。因此,在描述平均值时,同时报告均值 (µ) 和标准差 (σ) 是一种很好的做法,如美国成年女性的平均身高为 63.7 ± 2.7 英寸。
2. 相关性分析
相关性分析是数据科学中非常重要的一部分。当两个变量 x
超级会员免费看
订阅专栏 解锁全文
8

被折叠的 条评论
为什么被折叠?



