结果与常识相反:
单个项观察观察不论男性还是女性,服用药物的康复率大于未服用药的,但是整体上所有患者的康复率未服药的却高于服药的,相当反直觉。男女样本比例失真导致结论反直觉。
1.2 相关性和因果关系
相关性不等于因果关系
可能存在中间隐形变量扭曲结果
却有
看似相关,实则无关,变量之间的相关性可以完全被第三个变量所“扭曲”。应该正确选择分组变量对数据进行分组统计。
关系较为简单的,可以快速发现。例如与冬天相比,夏天游泳的人增多且溺亡人数上升,同时吃冰激凌的人数也增多,因此,我们可以观察到统计数据——在“吃冰激凌的人数多”时“溺亡人数多”。我们可以得出结论——“吃冰激凌的人数多”和“溺亡人数多”这两者之间有相关性,而如果我们得出“吃冰激凌的人数多”将会导致“溺亡人数多”这样的因果关系,这个结论显然是荒唐的。类似地,我们可以观察火灾事故中的伤亡人数和火灾救援中出动的消防车数量之间的统计关系,在所有的火灾统计数据中,可以发现,出动“消防车数量多”的火灾“伤亡人数多”,我们可以得出结论——火灾中“消防车数量多”和“伤亡人数多”之间有相关性,但我们不会得出“消防车数量多”导致了火灾中“伤亡人数多”的结论。
要避免下意识将相关性和因果关系混淆。
因果关系的两个特征:接近关系和接续关系。接近关系就是原因和结果在其发生的时间和地点两方面都互相接近。当原因和结果看起来互相远隔的时候,它们实际上也是被一连串互相接近的因果链条联系起来的。接续关系就是在时间上,原因总是发生在结果之前。
但是上述不绝对。
自然界中变量关系的认识层次
人们对自然界中不同变量之间关系的最低认识层次是相关性关系。观察到变量同步出现和变化,具有相关性。比如,在观察到“吃冰激凌的人数多”的同时观察到“溺亡人数多”;在火灾事故中,经常在观察到“消防车数量多”的同时观察到火灾“伤亡人数多”。
更加深入认识的是因果关系。比如,冬天衣服穿少了着凉后就会感冒,“着凉”和“感冒”之间就具有因果关系,我们不但可以观察到“着凉”和“感冒”(大致)同步发生,而且如果我们故意让一个人衣服穿少,他就必然会“感冒”(这里考虑总体情况,忽略极少部分特例)。
而相关性则不同,在火灾事故中“消防车数量多”和“伤亡人数多”具有相关性,但如果我们特意在火灾事故救援中增加“消防车数量”,并不会必然导致这次火灾事故中“伤亡人数”增加。
微分方程关系:人们对变量之间关系最深入的认识是以微分方程(普通方程可视为微分方程的特例)关系形式表达的变量之间的关系。比如,在惯性系中,物体运动满足牛顿第一定律
显然,物体所受的外力和其加速度之间存在因果关系,物体所受外力是“因”,物体的加速度是“果”。如果对物体施加外力,则必然产生加速度。但在因果关系信息的基础上,变量之间的微分方程关系还体现了变量之间较之因果关系更为精确和深入的关系。基于式(1.6),我们可以根据对物体施加外力的数值,精确推断出产生的加速度的数值。
在人们对客观世界的认识体系中,变量之间的相关性关系分析最简单,只需要对观察性数据做统计分析即可得到,因此,基于相关性的统计分析在机器学习领域得到了广泛的应用,近年来也取得了巨大的成功。但是,由于相关性关系分析对变量之间关系规律的反映最肤浅,也带来两个方面的问题。
1)基于相关性统计分析的机器学习泛化能力不足。马克斯·普朗克智能系统中心主任Bernhard Schölkopf发表文章指出,“尽管近期机器学习取得了很大成功,但如果我们将机器学习能够完成的事与动物能做的事进行对比就会发现机器学习对于动物擅长的一些技能表现并不好。这包括将解决问题的能力迁移至新问题,以及进行任意形式的泛化,这里不是指从一个数据点到另一个数据点(数据点来自同一分布)的泛化,而是从一个问题泛化至下一个问题”,并且他认为,“关注对干预进行建模和推理的因果关系可以极大地帮助理解和解决这些问题,从而将机器学习领域推向新高度”。
2)由于变量之间的相关关系可以完全被第三个变量所“扭曲”,因此基于相关性对变量进行预测,很可能得出类似辛普森悖论的错误结论。从数学的角度来看,辛普森悖论体现的就是:变量X和变量Y存在边缘正相关,但在给定另外的第三个变量Z后,在变量Z的每一个水平上,变量X和变量Y却存在条件负相关。辛普森悖论的案例说明,我们观察到的数据并非事物的全貌,变量之间的相关性关系并不等于变量之间的因果关系,简单地应用统计相关性分析相关结果得出分析结论,很可能得到一个错误的结果。鉴于辛普森悖论的潜在可能,简单的相关性分析不能代替因果推断研究。因此,在分析中,我们不能止步于相关性分析,而是需要采用正确的分析方法,进一步研究整个数据生成的过程,分析其中各个变量之间相互作用的机制,以获得变量之间的因果关系模型。
变量之间的微分方程关系精确、深入地刻画了变量之间的相互作用机制及量化关系,根据微分方程,可以对变量进行准确、量化的预测。但是变量之间的微分方程关系很难从观察性数据中获得,需要人们设计、执行大量的试验,才能从中归纳、演绎出变量之间的微分方程关系,获取的难度比相关性关系和因果关系更高。
在人们对客观世界的认识体系中,变量之间的因果关系是介于相关性关系和微分方程关系之间的一个层次。因果关系对客观世界变量之间关系反映的准确性介于相关性关系和微分方程关系之间,获取因果关系的难度也介于相关性关系和微分方程关系之间。
通过试验性数据获取变量之间的因果关系,比如大家常用的随机对照试验(Randomized Controlled Trail,RCT),但在一定条件下,我们也可以基于观察性数据得出变量之间的因果关系。一旦通过因果关系理解了数据中各个变量之间相互作用的机制,我们就能在观察性数据的基础上,结合变量之间的相互作用机制,通过因果推断,正确解决类似于前述辛普森悖论的决策问题。
在机器学习方面,“关注对干预进行建模和推理的因果关系可以极大地帮助理解和解决这些问题(泛化问题),从而将机器学习领域推向新高度”。