3、数据科学概述：统计、机器学习与大数据

最新推荐文章于 2025-11-24 11:51:29 发布

脚滑的狐狸160

最新推荐文章于 2025-11-24 11:51:29 发布

阅读量15

点赞数

CC 4.0 BY-SA版权

分类专栏： SQL Server数据科学实战文章标签：数据科学统计学机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/nginx7reverse/article/details/155009397

SQL Server数据科学实战专栏收录该内容

32 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

数据科学概述：统计、机器学习与大数据

1. 统计学基础

1.1 统计学的重要性

对于数据科学家而言，扎实掌握统计学知识至关重要。需要熟悉统计测试、分布、最大似然估计等内容。在机器学习领域同样如此，更重要的是要理解不同技术在何种情况下适用或不适用。统计学对各类公司都很关键，尤其是数据驱动型公司，利益相关者依赖数据科学家的帮助来做决策、设计和评估实验。

1.2 集中趋势

集中趋势有三种描述性度量：均值、中位数和众数。但 SQL Server 只能直接计算均值。
- 均值：所有测量值的总和除以数据集中的观测数量。
- 中位数 ：将数据集的上半部分和下半部分分开的中间值。
- 众数：数据集中出现频率最高的值。

中位数和众数可用于顺序数据，众数是唯一可用于名义数据的集中趋势度量。若要在 SQL Server 中查看这些值，可自定义聚合函数或使用复杂的 T - SQL 结构，也可使用 Python 或 R 代码在 SQL Server 内运行并处理描述性统计。

1.3 偏度

偏度用于指示数据是对称分布还是集中在图表的一侧，分为正偏度、负偏度和零偏度三种类型。正确计算偏度较为复杂，Python 和 R 可正确计算。SQL Server 无直接计算偏度的内置函数，但可根据均值和中位数判断：
- 均值 > 中位数，为正偏度。
- 均值 < 中位数，为负偏度。
- 均值 = 中位数，为零偏度。

1.4

会员秒杀 ¥9.9 重磅福利

超级会员免费看

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符 | 博主筛选后可见

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。