6、数据科学中的描述性统计、相关性分析与对数

数据科学中的描述性统计、相关性分析与对数

1. 数据科学中的模型与分布特征

在数据科学的实际应用中,常常会遇到各种难以判断的情况。比如运动员的表现,当他们经历一个出色的赛季时,往往会将其归因于自身状态的提升或训练方法的改进,而忽视了运气的因素。其实,很难区分这其中的真实信号和随机噪声。

在模型性能方面,数据科学家通常会针对每个预测问题开发和评估多个模型,这些模型的复杂度和训练条件各不相同。一般来说,在训练集上准确率最高的模型会被认为是最优模型,但实际上,模型之间的微小性能差异可能只是由简单的方差导致,而非模型本身的优劣。当面对性能差异较小的模型时,选择最简单的模型往往是更明智的做法。就像让一百个人预测抛硬币的结果,其中肯定会有一个人预测正确的次数最多,但这并不意味着他的预测能力比其他人更强。

对于分布特征的描述,均值并不一定能很好地反映分布的全貌。例如,借了 1 亿美元并全部押在抛硬币上,正面朝上会净赚 1 亿美元,反面朝上则负债 1 亿美元,此时预期财富为零,但这个均值并不能说明财富分布的形状。而均值和标准差结合起来,能更好地描述任何分布。标准差反映了数据偏离均值的程度,较小的标准差意味着大部分数据集中在均值附近。具体来说,无论数据如何分布,至少 (1 - (1/k²)) 的数据会落在均值 ±k 个标准差的范围内。例如,至少 75% 的数据会落在均值 ±2 个标准差的范围内,近 89% 的数据会落在均值 ±3 个标准差的范围内。因此,在描述平均值时,同时报告均值 (µ) 和标准差 (σ) 是一种很好的做法,如美国成年女性的平均身高为 63.7 ± 2.7 英寸。

2. 相关性分析

相关性分析是数据科学中非常重要的一部分。当两个变量 x

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值