商业智能从业者的 T-SQL 数据分析
1. 数据特征与初步结论
从偏度和峰度的较高值可以看出,美国员工的销售金额变量具有更重要的右尾。这可能意味着美国有一些大客户下的订单比普通客户大得多。
2. 线性依赖分析
2.1 变量关系检验
在分析中,我们通常从原假设开始。原假设是指两个测量变量之间没有关系的一般性陈述或默认立场。我们通过统计分析来证明或反驳这个假设,这里主要分析线性关系。
变量分为离散变量和连续变量,下面将分别介绍分析两个连续变量、两个离散变量以及一个连续变量和一个离散变量之间关系的方法。分析变量对之间的关系很多时候是分析的目标,同时也是进行更深入分析(如数据挖掘方法分析)的有用第一步。找到变量对之间的关系有助于为更复杂的方法选择变量,例如,如果发现两个输入变量之间有很强的关系,就可以在后续更复杂的分析过程中忽略其中一个变量,从而降低问题的复杂度。
2.2 两个连续变量的关系分析
2.2.1 协方差
假设有两个变量,其值的分布如下表所示:
| Value Xi | Probability Xi | Value Yi | Probability Yi |
| — | — | — | — |
| 0 | 0.14 | 1 | 0.25 |
| 1 | 0.39 | 2 | 0.50 |
| 2 | 0.36 | 3 | 0.25 |
| 3 | 0.11 | | |
第一个变量有四种不同状态,第二个变量有三种。实际上,这两个变量代表有更多可能状态的连续变量,为了简化解释,这里限制了
超级会员免费看
订阅专栏 解锁全文
777

被折叠的 条评论
为什么被折叠?



