数据科学:从基础统计到常见问题与编程语言对比
1. 描述性统计
在机器学习中,理解数据是至关重要的,而描述性统计分析则是实现这一目标的关键。因为机器学习的核心在于进行预测,所以对数据进行描述性统计分析是必要的初始步骤。
数据集需要经过描述性统计分析,然而很多人常常跳过这一步,从而失去了对数据的大量有益理解,导致得出错误的结论。在进行描述性统计时,要谨慎行事,确保数据满足进一步分析的所有先决条件。
1.1 正态分布
正态分布是统计学中最关键的概念,因为几乎所有的统计测试都要求数据呈正态分布。当科学家绘制正态分布时,它本质上是对大量数据样本模式的描绘,有时也被称为“高斯曲线”或“钟形曲线”。
进行概率的计算和推断统计时,需要数据呈正态分布。如果数据不是正态分布,在选择统计测试时必须小心,否则可能会得出错误的结论。当数据具有对称性、单峰性、中心性且呈钟形时,就符合正态分布,在完美的正态分布中,每一侧都是另一侧的精确镜像。
1.2 集中趋势
在统计学中,我们需要处理均值、众数和中位数,这三者也被称为“集中趋势”。它们是最常见且独特的“平均值”。
- 均值 :是最符合从特定模型对总体进行假设的集中倾向度量,通过所有值的总和除以值的数量来计算。
- 众数 :是数据中频繁出现的类别或值。如果数据中没有重复的数字或类别相似性,则没有众数,而且一个数据集可能有多个众数。对于分类变量,众数是唯一的集中趋势度量,因为我们可以计算像“性别”这样变量的平均值,而分类变量只能报告百分比和数字。 <