机器学习中的因果模型:协变量偏移与多元模型解析
1. 协变量偏移(Covariate Shift)
1.1 独立性原理的两种解读
因果关系中的独立性原理,即 $P_{cause}$ 和 $P_{effect|cause}$ 的独立性,有两种不同的解读方式。一方面,在固定的联合分布下,这两个对象彼此不包含对方的信息;另一方面,当联合分布 $P_{cause,effect}$ 在不同数据集间发生变化时,$P_{cause}$ 的变化并不能告知我们 $P_{effect|cause}$ 的变化情况。
1.2 协变量偏移的概念
假设我们从一个数据集中学习了变量 $X$ 和 $Y$ 之间的统计关系,并打算将此知识用于另一个数据集的 $Y$ 预测。若第二个数据集中 $X$ 的分布 $P’ X$ 与第一个数据集的 $P_X$ 不同,根据机制独立性,$P’_X$ 与 $P_X$ 的差异并不能说明 $P {Y|X}$ 是否在数据集间发生了变化。所以,即使 $P_X$ 改变了,我们仍可能使用相同的 $P_{Y|X}$ 进行预测,这种情况被称为协变量偏移。这在机器学习中是一个经过充分研究的假设,并且只有在因果场景下(即 $X$ 是原因,$Y$ 是结果)才合理。
1.3 因果与反因果场景的示例
因果场景
当 $X$ 是原因,$Y$ 是结果时,协变量偏移假设是合理的。例如,在某些情况下,即使 $P_X$ 发生变化,$P_{Y|X}$ 可能仍然适用于新的数据集。
反因果场景
考虑一个反因果场景,其中 $X$ 是结果,$Y$ 是二元变量,以加法方式影
超级会员免费看
订阅专栏 解锁全文
16

被折叠的 条评论
为什么被折叠?



