因果推断与机器学习:从深度学习、自然语言处理到更多领域
1. 因果推断与分析挑战
在因果推断的研究中,我们通过分析发现,若模型设定正确,有令人信服的证据表明埃隆·马斯克的推文增加了推特在谷歌上的搜索量。不过,在得出结论前,我们需要探讨一些分析中面临的挑战。
1.1 捐赠池大小问题
分析中使用的捐赠池规模较小,这可能是 $R^2$ 值较低的原因。一般来说,许多从业者建议捐赠池中的变量数量至少在 5 到 25 个之间。但较小的捐赠池规模也有一定优势,比如能确保不会出现过拟合问题,而较大的捐赠池规模可能会导致过拟合。
1.2 因果关系的复杂性
我们假设马斯克的推文导致了推特搜索量的增加,但可能还有其他因素在起作用,例如关于推特收购的媒体报道。这里可能存在混杂因素,推特收购本身可能既引发了马斯克的推文,又增加了人们对该平台信息的兴趣。仅依据数据无法排除这种可能性,而且通常很难完全排除。这表明准实验方法并不能自动保证因果可识别性,在使用这些方法时,我们应像对待其他因果方法一样,考虑所有可用数据。
1.3 准实验分析的步骤
在进行准实验分析时,考虑描述问题的有向无环图(DAG)、理解变量之间的结构关系以及调查潜在的混杂因素是很好的第一步。
2. 本章内容回顾
本章涵盖了多个重要方面的内容:
- 模型回顾与实现 :我们重新审视了 S - 学习器和 T - 学习器模型,并展示了灵活的深度学习架构如何结合这两种模型的优势。我们实现了 TARNet 和 SNet,并学习了如何使用基于 PyTorch 的 CATENet
超级会员免费看
订阅专栏 解锁全文
1240

被折叠的 条评论
为什么被折叠?



