43、商业智能从业者的 T-SQL 数据分析

最新推荐文章于 2025-11-25 13:39:39 发布

人间计算器

最新推荐文章于 2025-11-25 13:39:39 发布

阅读量19

点赞数

CC 4.0 BY-SA版权

分类专栏：掌握T-SQL查询的艺术文章标签：商业智能 T-SQL 数据分析

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/swift5iosmith/article/details/155124286

掌握T-SQL查询的艺术专栏收录该内容

69 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

商业智能从业者的 T-SQL 数据分析

1. 数据特征与初步结论

从偏度和峰度的较高值可以看出，美国员工的销售金额变量具有更重要的右尾。这可能意味着美国有一些大客户下的订单比普通客户大得多。

2. 线性依赖分析

2.1 变量关系检验

在分析中，我们通常从原假设开始。原假设是指两个测量变量之间没有关系的一般性陈述或默认立场。我们通过统计分析来证明或反驳这个假设，这里主要分析线性关系。

变量分为离散变量和连续变量，下面将分别介绍分析两个连续变量、两个离散变量以及一个连续变量和一个离散变量之间关系的方法。分析变量对之间的关系很多时候是分析的目标，同时也是进行更深入分析（如数据挖掘方法分析）的有用第一步。找到变量对之间的关系有助于为更复杂的方法选择变量，例如，如果发现两个输入变量之间有很强的关系，就可以在后续更复杂的分析过程中忽略其中一个变量，从而降低问题的复杂度。

2.2 两个连续变量的关系分析

2.2.1 协方差

假设有两个变量，其值的分布如下表所示：
| Value Xi | Probability Xi | Value Yi | Probability Yi |
| — | — | — | — |
| 0 | 0.14 | 1 | 0.25 |
| 1 | 0.39 | 2 | 0.50 |
| 2 | 0.36 | 3 | 0.25 |
| 3 | 0.11 | | |

第一个变量有四种不同状态，第二个变量有三种。实际上，这两个变量代表有更多可能状态的连续变量，为了简化解释，这里限制了

会员秒杀 ¥9.9 重磅福利

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。