16、数据科学中的相关性、因果性与机器学习

数据科学中的相关性、因果性与机器学习

1. 相关性与因果性

1.1 相关性不意味着因果性

在数据科学里,常常会出现变量间存在数学相关性,但这并不代表它们有因果关系。就像奶酪消费量和土木工程博士数量,二者很可能只是恰好相关,而非奶酪消费决定了博士数量。“相关性不意味着因果性”这一观点,数据科学家必须牢记。变量间可能存在混淆因素,或者根本毫无关联。

1.2 辛普森悖论

辛普森悖论是我们必须认真对待混淆变量的一个重要原因。该悖论指出,当考虑不同因素时,两个变量间的相关性可能会完全反转。

示例:网页转化率

假设要比较两个着陆页(页面A和页面B)的转化率。初步测试结果如下表:
| 页面 | 转化率 |
| ---- | ---- |
| 页面A | 75% (263/350) |
| 页面B | 83% (248/300) |

从这个结果看,页面B的转化率比页面A高近10%,似乎页面B是更好的选择。

但当考虑用户所在的美国海岸位置时,结果如下表:
| 页面 | 西海岸 | 东海岸 | 总体 |
| ---- | ---- | ---- | ---- |
| 页面A | 95% (76/80) | 72% (193/270) | 75% (263/350) |
| 页面B | 93% (231/250) | 34% (17/50) | 83% (248/300) |

可以看到,按位置细分样本后,页面A在两个类别中表现更好,但总体却更差,这就是辛普森悖论。这是由于四个组间的类别不平衡导

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值