3、数据科学概述:统计、机器学习与大数据

数据科学概述:统计、机器学习与大数据

1. 统计学基础

1.1 统计学的重要性

对于数据科学家而言,扎实掌握统计学知识至关重要。需要熟悉统计测试、分布、最大似然估计等内容。在机器学习领域同样如此,更重要的是要理解不同技术在何种情况下适用或不适用。统计学对各类公司都很关键,尤其是数据驱动型公司,利益相关者依赖数据科学家的帮助来做决策、设计和评估实验。

1.2 集中趋势

集中趋势有三种描述性度量:均值、中位数和众数。但 SQL Server 只能直接计算均值。
- 均值 :所有测量值的总和除以数据集中的观测数量。
- 中位数 :将数据集的上半部分和下半部分分开的中间值。
- 众数 :数据集中出现频率最高的值。

中位数和众数可用于顺序数据,众数是唯一可用于名义数据的集中趋势度量。若要在 SQL Server 中查看这些值,可自定义聚合函数或使用复杂的 T - SQL 结构,也可使用 Python 或 R 代码在 SQL Server 内运行并处理描述性统计。

1.3 偏度

偏度用于指示数据是对称分布还是集中在图表的一侧,分为正偏度、负偏度和零偏度三种类型。正确计算偏度较为复杂,Python 和 R 可正确计算。SQL Server 无直接计算偏度的内置函数,但可根据均值和中位数判断:
- 均值 > 中位数,为正偏度。
- 均值 < 中位数,为负偏度。
- 均值 = 中位数,为零偏度。

1.4

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值