数据科学中的统计与数学基础
在数据科学领域,我们常常需要处理各种复杂的数据和模型。下面将为大家详细介绍描述性统计、相关性分析以及对数等重要概念。
描述性统计
在评估模型和理解数据分布时,我们需要谨慎区分信号和噪声。比如运动员在某个赛季表现出色,人们往往会将其归因于训练方法的改进,而忽略了运气因素。同样,在机器学习模型训练中,我们通常会开发和评估多个模型。那些在训练集上准确率高的模型,可能仅仅是因为训练/评估对的选择或者参数优化等简单方差因素,而并非模型本身的优越性。所以,当在性能差异较小的模型中做选择时,选择最简单的模型往往是更明智的。
对于数据分布的描述,均值和标准差是两个重要的指标。均值并不一定能很好地反映分布的全貌。例如,借了1亿美元并全部押在抛硬币上,无论输赢,预期财富为零,但这个均值无法体现财富分布的实际情况。而均值和标准差结合起来,能更好地描述分布。对于任何分布,至少 (1 - (1/k²)) 的数据质量位于均值 ±k 个标准差范围内。例如,至少75%的数据位于均值 ±2σ 范围内,近89%的数据位于均值 ±3σ 范围内。因此,在描述平均值时,同时报告均值 (µ) 和标准差 (σ) 是很好的做法,如美国成年女性平均身高为 63.7 ± 2.7 英寸。
相关性分析
当两个变量 x 和 y 中,x 的值对 y 的值有一定预测能力时,我们称它们相关。相关系数 r(X, Y) 用于衡量这种相关性的程度,取值范围为 -1 到 1。1 表示完全相关,0 表示无关系,-1 表示完全负相关。负相关同样具有预测价值,例如受教育程度越高,失业可能性越低。以下是一些常见的相关性示例:
| 变量关系 | 相关系数 | 说明 |
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



