数据科学概述:统计、机器学习与大数据
1. 统计学基础
1.1 统计学的重要性
对于数据科学家而言,扎实掌握统计学知识至关重要。需要熟悉统计测试、分布、最大似然估计等内容。在机器学习领域同样如此,更重要的是要理解不同技术在何种情况下适用或不适用。统计学对各类公司都很关键,尤其是数据驱动型公司,利益相关者依赖数据科学家的帮助来做决策、设计和评估实验。
1.2 集中趋势
集中趋势有三种描述性度量:均值、中位数和众数。但 SQL Server 只能直接计算均值。
- 均值 :所有测量值的总和除以数据集中的观测数量。
- 中位数 :将数据集的上半部分和下半部分分开的中间值。
- 众数 :数据集中出现频率最高的值。
中位数和众数可用于顺序数据,众数是唯一可用于名义数据的集中趋势度量。若要在 SQL Server 中查看这些值,可自定义聚合函数或使用复杂的 T - SQL 结构,也可使用 Python 或 R 代码在 SQL Server 内运行并处理描述性统计。
1.3 偏度
偏度用于指示数据是对称分布还是集中在图表的一侧,分为正偏度、负偏度和零偏度三种类型。正确计算偏度较为复杂,Python 和 R 可正确计算。SQL Server 无直接计算偏度的内置函数,但可根据均值和中位数判断:
- 均值 > 中位数,为正偏度。
- 均值 < 中位数,为负偏度。
- 均值 = 中位数,为零偏度。
超级会员免费看
订阅专栏 解锁全文
631

被折叠的 条评论
为什么被折叠?



