6、数据科学中的描述性统计、相关性分析与对数

最新推荐文章于 2025-10-13 16:25:48 发布

寂静夜空35

最新推荐文章于 2025-10-13 16:25:48 发布

阅读量15

点赞数

CC 4.0 BY-SA版权

分类专栏：数据科学的艺术与智慧文章标签：数据科学描述性统计相关性分析

本文链接：https://blog.youkuaiyun.com/vulkan6gpu/article/details/154983304

数据科学的艺术与智慧专栏收录该内容

50 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

数据科学中的描述性统计、相关性分析与对数

1. 数据科学中的模型与分布特征

在数据科学的实际应用中，常常会遇到各种难以判断的情况。比如运动员的表现，当他们经历一个出色的赛季时，往往会将其归因于自身状态的提升或训练方法的改进，而忽视了运气的因素。其实，很难区分这其中的真实信号和随机噪声。

在模型性能方面，数据科学家通常会针对每个预测问题开发和评估多个模型，这些模型的复杂度和训练条件各不相同。一般来说，在训练集上准确率最高的模型会被认为是最优模型，但实际上，模型之间的微小性能差异可能只是由简单的方差导致，而非模型本身的优劣。当面对性能差异较小的模型时，选择最简单的模型往往是更明智的做法。就像让一百个人预测抛硬币的结果，其中肯定会有一个人预测正确的次数最多，但这并不意味着他的预测能力比其他人更强。

对于分布特征的描述，均值并不一定能很好地反映分布的全貌。例如，借了 1 亿美元并全部押在抛硬币上，正面朝上会净赚 1 亿美元，反面朝上则负债 1 亿美元，此时预期财富为零，但这个均值并不能说明财富分布的形状。而均值和标准差结合起来，能更好地描述任何分布。标准差反映了数据偏离均值的程度，较小的标准差意味着大部分数据集中在均值附近。具体来说，无论数据如何分布，至少 (1 - (1/k²)) 的数据会落在均值 ±k 个标准差的范围内。例如，至少 75% 的数据会落在均值 ±2 个标准差的范围内，近 89% 的数据会落在均值 ±3 个标准差的范围内。因此，在描述平均值时，同时报告均值 (µ) 和标准差 (σ) 是一种很好的做法，如美国成年女性的平均身高为 63.7 ± 2.7 英寸。