在科学研究和商业活动中,人们常常关注某项“处理”(例如更改网页字体)对“响应变量”(例如访客在页面的停留时长)的因果效应。通常,处理是二元的:页面使用一种字体或另一种。但有时处理是连续的。例如,软饮料制造商可能希望测试在新饮料中添加柠檬风味剂的一系列可能用量。
通常,存在既影响处理又影响响应变量的混杂因素,因果估计必须对其进行考量。虽然当处理为二元时,处理混杂因素的方法已得到充分研究,但连续处理下的因果推断则更具挑战性且研究相对不足。
在今年举行的国际机器学习大会上,某机构的同事提出了一种新方法,用于估计连续变化处理的效果。该方法结合了端到端机器学习模型与倾向得分加权和熵平衡的概念。
该方法与四种前代方法(包括传统的熵平衡)在两个不同的合成数据集上进行了比较:一个是处理与响应变量关系为线性的数据集,另一个是非线性关系的数据集。在线性数据集上,该方法比表现最佳的前代方法将均方根误差降低了27%;在非线性数据集上,改进幅度达到38%。
倾向得分
连续处理使得因果推断更为困难,主要是因为它们为每个单元(例如,每个受试者)引入了不可数的潜在结果,而每个单元仅能观察到其中一个结果,并且各单元间的结果也不同。例如,在一毫升到两毫升之间存在无限种柠檬风味剂用量,对应着无限种可能的顾客偏好。在连续处理设置中,因果推断模型将连续输入映射到连续输出,即响应曲线。
如果两个变量都受到第三个变量(即混杂因素)的影响,则可能难以确定它们之间的因果关系。考虑一个简单的因果图,涉及处理 a、响应变量 y 以及混杂因素 x,x 同时影响 a 和 y。
在连续处理的情境下,标准处理混杂因素的方法是通过倾向得分加权。本质上,倾向得分加权会削弱两个同时受混杂因素影响的变量之间的效应。例如,在上述因果图中,我们会根据给定 x 时 a 的逆概率来加权 a 和 y 之间的边。也就是说,给定 x 时 a 的可能性越大,我们就认为 a 对 y 的影响越小。
然而,某些单元的倾向得分可能非常大,导致数据不平衡,进而引发估计不稳定和推断不确定。熵平衡是一种纠正此问题的方法,它通过选择权重以最小化权重之间的差异(即最大化其熵)来实现。
端到端平衡
新算法基于熵平衡,并通过端到端优化学习权重,以直接最大化因果推断的准确性。称之为端到端平衡。
下图展示了该方法。变量 {xi, ai} 是数据集中的混杂因素-处理对,lq 是一个神经网络,它学习在给定混杂因素-处理对的情况下生成一组熵平衡权重 {wi}。函数 µ-bar 是一个随机选择的响应函数,即一个给定处理 a 计算响应变量值 ȳ 的函数。
因此,三元组 {xi, ai, ȳi} 构成了一个合成数据集:真实的 x 和 a,但生成了合成的 y。在训练过程中,神经网络学习生成能够重现已知响应函数 µ-bar 的熵平衡权重。一旦网络训练完成,就将其应用于真实数据集(包含真实的 y)以估计真实的响应函数 µ-hat。
在论文中提供了理论分析,证明了该方法的一致性。同时还研究了合成数据生成过程中错误设定的影响。结果表明,即使初始选择的随机响应函数 µ-bar 非常不准确,也不会阻止模型收敛到一个对真实响应函数 µ-hat 的良好估计上。
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号(网络安全技术点滴分享)
连续处理因果推断新突破
1981

被折叠的 条评论
为什么被折叠?



