作者:Bernhard Schölkopf , Francesco Locatello , Stefan Bauer , Nan Rosemary Ke, Nal Kalchbrenner,Anirudh Goyal, Yoshua Bengio
1.综述
该论文深入探讨了因果模型的基本概念,并与机器学习中的问题相关联,包括迁移学习和泛化。描述了模型的建模层次,特别是因果模型与统计模型的区别。陈述独立因果机制(ICM)和稀疏机制转换(SMS)对因果模型的影响。讨论了如何以因果表示从数据中学习有用的现实模型。
2.问题阐述
机器学习对于问题的迁移、泛化方面的表现并不是很好,并且其目前大部分都是在数据为独立同分布的条件下进行。而因果关系可以使动物在面对环境变化时能够利用干预、领域变化和时间结构等信息,但机器学习通常并不能对这些信息加以利用
a.鲁棒性
深度学习并不能对来源不同的数据进行很好的预测,即对于分布不同的数据的泛化能力不好。要提高深度学习模型的泛化能力不仅需要学习变量之间的统计关联,还需要学习潜在的因果模型。
b.学习可重用机制
学习环境结构知识可以很好地提高机器学习模型的泛化能力。在面对新环境、新任务时,只需要调用模型内部的几个模块即可。
c.因果关系视角
因果关系不能由布尔逻辑或概率推断来完全描述,而是需要考虑的干预概念。因果关系被视为推理链的组成部分,发现因果关系意味着,在获得在观察数据之外以及一组训练任务中仍然具有稳健的知识,并且它涉及推理形式的情况。因果关系,重点是表示允许干预和变化的数据生成过程的结构知识,有助于理解和解决当前机器学习方法的一些限制。
3.因果建模层次
因果模型就像物理学中的模型一样,目的是提供理解和预测干预措施的效果。然而,因果发现和学习试图以一种数据驱动的方式得出这样的模型,用弱的和通用的假设取代专家知识。对不同模型的分类与分级为:
a.在独立同分布(i.i.d.)设置中的预测
统计模型是对现实的表面描述,只需要对关联性进行建模。统计模型的预测只有在实验条件完全相同的情况下才是准确的,进行干预会改变数据分布,这会导致预测不准确。因此,统计模型并不足够支撑决策。
b.在分布变化下的预测
干预性问题比预测更具有挑战性。干预改变了变量的联合分步,将我们带出统计学习通常的独立同分布的行动,经典的统计学习将不再适用。训练包含干预的预测模型,会具有很好的鲁棒性(即使实验条件改变,其预测依然有效)。
c.回答反事实问题的能力
反事实问题涉及对事情发生原因的推理,想象不同行动的后果,并确定哪些行动可以实现期望的结果。反事实问题在强化学习(RL)中至关重要,可以使智能代理反思其决策,并提出可以经验验证的假设。