T-SQL 中变量关系的分析与应用
1. 数据特征与初步结论
销售金额变量对于美国员工呈现出更重要的右尾特征,这可以从偏度和峰度的较高值看出。由此可以推测,美国存在一些大客户,他们的订单规模远大于普通客户。
2. 线性依赖关系分析
2.1 分析目标与方法
要检查两个选定变量是独立的还是存在某种关联。在统计学中,首先提出零假设,即两个测量变量之间不存在关系,然后通过统计分析来证明或反驳该假设,这里仅分析线性关系。变量分为离散变量和连续变量,下面将分别探讨不同类型变量之间关系的分析方法。
2.2 分析变量关系的意义
- 分析变量对之间的关系往往是分析的目标。
- 这也是进行更深入分析(如使用数据挖掘方法)的第一步,有助于为更复杂的方法选择变量。例如,如果发现一对输入变量之间存在强关系,在后续更复杂的分析过程中可以忽略其中一个变量,从而降低问题的复杂度。
3. 两个连续变量关系的分析
3.1 衡量指标
为了衡量两个连续变量之间关系的强度,定义了三个指标:协方差、相关系数和决定系数。最后,还将使用线性回归公式将一个变量表示为另一个变量的函数。
3.2 协方差
3.2.1 示例数据
假设有两个变量,其值的分布如下表所示:
| Value Xi | Probability Xi | Value Yi | Probability Yi |
| — | — | — | — |
| 0 | 0.14 | 1 | 0.25
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



