统计与因果模型:从理论到实践的深入剖析
1. 数据学习的极限与因果模型的引入
在数据学习领域,尽管在无限数据的理想情况下,我们期望能解决各类问题,但有限数据下的学习却存在挑战。由于学习速率缓慢的现象,并非所有问题都能从有限数据中得到良好学习。不过,如果我们固定数据分布并收集足够多的数据,最终可以无限接近最低风险。
近年来,机器学习系统的成功表明我们有时已处于渐近状态,能取得显著成果。人们致力于设计数据高效的方法以从给定数据集中获取最佳结果,并努力构建大型数据集来训练这些方法。但在所有这些场景中,训练和测试时的底层分布保持一致至关重要,否则可能影响结果。仅仅用概率分布描述底层规律,而不添加额外结构,无法准确描述可能发生的变化。
因果模型则从一个更基础的结构出发。因果结构包含概率模型,但还蕴含了更多额外信息。因果推理是从因果模型中得出结论的过程,类似于概率理论让我们对随机实验结果进行推理。由于因果模型比概率模型包含更多信息,因果推理更强大,能分析干预或分布变化的影响。
从经验结果推断因果结构的问题,被称为因果学习。与标准的统计学习问题不同,即使完全了解概率分布,解决因果学习问题也并非易事,还需要额外的假设。这一问题的难度不应让我们忽视统计问题本身的不适定性,同时我们还要应对估计比概率模型更丰富结构带来的额外困难。
为了从观测分布中学习因果结构,我们需要理解因果模型和统计模型之间的关系。一个常见观点是,相关性并不意味着因果关系,即仅统计属性不能确定因果结构。不过,我们可以从统计依赖关系中推断因果联系的存在,这就是赖兴巴赫共同原因原则的核心思想。
2. 赖兴巴赫共同原因原则
赖兴巴赫共同原因原则指出,如果两个随机变量
超级会员免费看
订阅专栏 解锁全文
674

被折叠的 条评论
为什么被折叠?



