数据科学中的相关性、因果性与机器学习
1. 相关性与因果性
1.1 相关性不意味着因果性
在数据科学里,常常会出现变量间存在数学相关性,但这并不代表它们有因果关系。就像奶酪消费量和土木工程博士数量,二者很可能只是恰好相关,而非奶酪消费决定了博士数量。“相关性不意味着因果性”这一观点,数据科学家必须牢记。变量间可能存在混淆因素,或者根本毫无关联。
1.2 辛普森悖论
辛普森悖论是我们必须认真对待混淆变量的一个重要原因。该悖论指出,当考虑不同因素时,两个变量间的相关性可能会完全反转。
示例:网页转化率
假设要比较两个着陆页(页面A和页面B)的转化率。初步测试结果如下表:
| 页面 | 转化率 |
| ---- | ---- |
| 页面A | 75% (263/350) |
| 页面B | 83% (248/300) |
从这个结果看,页面B的转化率比页面A高近10%,似乎页面B是更好的选择。
但当考虑用户所在的美国海岸位置时,结果如下表:
| 页面 | 西海岸 | 东海岸 | 总体 |
| ---- | ---- | ---- | ---- |
| 页面A | 95% (76/80) | 72% (193/270) | 75% (263/350) |
| 页面B | 93% (231/250) | 34% (17/50) | 83% (248/300) |
可以看到,按位置细分样本后,页面A在两个类别中表现更好,但总体却更差,这就是辛普森悖论。这是由于四个组间的类别不平衡导
超级会员免费看
订阅专栏 解锁全文
1140

被折叠的 条评论
为什么被折叠?



