因果,利用反事实最大似然估计训练深度学习网络(一)

标题与整体内容

这张图介绍了 “Proposed underlying causal model”(提出的潜在因果模型) ,主要用于自然语言推理(NLI)和图像字幕(Image captioning)领域,目的是学习任务的不变潜在因果结构,而非观测数据间的统计相关性 。

图示部分

图中有三个节点:X、Y、T ,构成因果关系图。X 分别指向 Y 和 T,T 也指向 Y 。从 X 到 T 的箭头标有 “spurious”(虚假的),并且有文字说明 “Do not hold on OOD test data”(在分布外测试数据上不成立) 。图下方标注 “Observed distribution”(观测分布),表示这是在观测数据中的因果关系情况。

具体任务定义

  • 自然语言推理(NLI) :
    • X 代表前提(premise) 。
    • Y 代表假设(hypothesis) 。
    • T 代表逻辑关系(logical relationship) 。
  • 图像字幕(Image captioning) :
    • X 代表图像(image) 。
    • Y 代表字幕(caption) 。
    • T 代表是否产生幻觉(hallucinated or not) 。

文字说明部分

  • 数据生成过程(Data generation process) :Y 由 X 和 T 生成 / 导致,X 对 Y 和 T 产生混淆作用。
  • 目标(Goal) :学习任务不变的潜在因果结构,而非观测数据间的统计相关性。
  • 思路(Idea) :在假想的无虚假数据分布上执行极大似然估计(MLE)。​​​​​​

图中标题为 “Structural Causal Model”(结构因果模型) ,主要内容是对结构因果模型进行定义和简要说明。

定义阐述

  • 结构因果模型的构成:定义结构因果模型(SCM)是一个对 ⟨M,p(u)⟩ 。其中 M 是一个三元组 ⟨U,V,F⟩ ,p(u) 是定义在 U 域上的概率函数 。
    • 外生变量集合 U:U={U1​,U2​,…,Un​} ,是由模型外部因素决定的背景变量(外生变量)集合 。这些变量不受模型内部其他变量的直接影响,是模型的外部输入。
    • 内生变量集合 V:V={V1​,V2​,…,Vn​} ,是内生变量集合。这些变量的值由模型内部其他变量(包括外生变量)通过函数关系确定。
    • 函数集合 F:F={f1​,f2​,…,fn​} ,是函数集合。对于每个内生变量 Vi​ ,有 Vi​=fi​(Pa(Vi​),Ui​) ,其中 i=1,2,…,n 。Pa(Vi​)∈V∖Vi​ 表示 Vi​ 的父节点集合,即直接导致 Vi​ 产生的变量集合 。如果 Vj​∈Pa(Vi​) ,则称 “Vj​ 是 Vi​ 的直接原因” ,并在因果图中表示为 Vj​→Vi​ 。

图示部分

图中有四个节点,分别是 U1​、V1​、V2​、U2​ 。箭头从 U1​ 指向 V1​ ,表示 U1​ 是 V1​ 的直接原因;从 V2​ 指向 V1​ ,表示 V2​ 是 V1​ 的直接原因;从 U2​ 指向 V2​ ,表示 U2​ 是 V2​ 的直接原因 。通过这个简单图示直观展示了外生变量和内生变量之间的因果关系。

这张图标题为 “Causal Assumptions”(因果假设),主要阐述了关于因果关系的一些假设,涉及观测分布和假想分布两种情况,目的是为了排除虚假相关性,挖掘真实因果结构。

图示部分

  • 观测分布(Observed distribution):图中有三个节点X、Y、T 。X分别指向Y和T,从X到T的箭头标有 “spurious”(虚假的) ,表示X到T的这种关联可能是虚假的因果关系。
  • 假想分布(Imaginary distribution):同样有三个节点X、Y、T 。X指向Y,T也指向Y ,与观测分布的区别在于去掉了X到T的虚假边,代表一种去除虚假关联后的理想因果结构。

文字说明部分

  • 潜在不变的数据生成过程:Y由X和T(离散变量)生成 ,这是因果关系的基本设定。
  • 虚假边的特性:从X到T的虚假边在不同环境或数据集下会发生变化 ,说明这种关联不具有稳定性,是不可靠的因果联系。
  • 强可忽略性假设(Strong Ignorability Assumption):Y和T之间不存在隐藏的混淆变量,并且条件概率p(T∣X)>0 。该假设保证了在分析因果关系时,不会有未被考虑到的因素干扰Y和T之间的关系判断。
  • 排除虚假相关性的方法:为了排除虚假相关性,要在假想的无虚假分布(即上述假想分布)上执行极大似然估计(MLE) ,通过这种方式来学习真实的因果结构,而不是被观测数据中的虚假关联误导。

图中标题为 “Counterfactual Maximum Likelihood Estimation (CMLE)”(反事实最大似然估计) ,主要围绕反事实最大似然估计在预测 Y 时的原理、面临问题及解决思路展开。

公式部分

  • 预测 Y 的 CMLE 公式
    Ep′(X,Y,T)​[−logpθJ​(Y∣X,T)]=EX​[m1​∑i=1m​EYi​∣X​[−logpθ​(Yi​∣X)]] 。
    • 左侧 Ep′(X,Y,T)​[−logpθJ​(Y∣X,T)] ,表示在分布 p′(X,Y,T) 下,关于条件概率 pθJ​(Y∣X,T) 的负对数似然的期望 。这里 pθJ​(Y∣X,T) 是基于参数 θ 的条件概率,J 可能是某种特定的设定或指标。
    • 右侧 EX​[m1​∑i=1m​EYi​∣X​[−logpθ​(Yi​∣X)]] ,是对 X 取期望,其中 m1​∑i=1m​EYi​∣X​[−logpθ​(Yi​∣X)] 表示先对每个 X 下的 Yi​ 取期望,再对所有样本求平均。该公式旨在通过一定方式计算出基于反事实最大似然估计预测 Y 的表达式。

文字说明部分

  • 考虑不同 T 下 Y 的可能结果:对于每个 X ,需要考虑不同 T 时 Y 所有可能的结果 。这是因为 Y 由 X 和 T 共同决定,在分析因果关系和进行预测时,要全面考虑 T 的变化对 Y 的影响。
  • 观测数据集的局限与应对:在观测数据集中,通常每个数据点只能观测到一个 Y 的结果 。但为了进行反事实推断,需要根据观测分布来估计反事实结果 。这是因为反事实分析关注在不同条件下可能出现的结果,而观测数据往往只呈现了一种实际情况,所以要通过一定方法来推断其他潜在结果。
  • 提出 CMLE 的两种上界:提出了 Implicit CMLE(隐式反事实最大似然估计)和 Explicit CMLE(显式反事实最大似然估计)两种不同的 CMLE 上界 。目的是为了在实际应用中,通过合理界定范围来更好地进行反事实最大似然估计,以解决实际问题和优化模型性能。

分享

因果模型如何帮助解决自然语言推理和图像字幕中的问题?

该因果模型在实际应用中有哪些具体的优势和挑战?

潜在因果模型和其他自然语言处理模型有什么区别?

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值