预测与解释 为什么数据科学需要更多的“半贝叶斯”

本文探讨了预测模型与因果推理在数据科学中的角色,对比了诺姆·乔姆斯基与彼得·诺维格的观点,讨论了两者在学术与工业界的不同侧重,以及如何平衡预测准确性与解释力。

预测与解释

为什么数据科学需要更多的“半贝叶斯”

在这里插入图片描述

  **一种有向无环图,描绘了胎儿酒精谱系障碍的原因途径**

认知科学中的文化战争

我最近偶然发现了几年前关于自然语言处理的真正多汁的辩论,这场辩论发生在几年前,现场语言守护者诺姆乔姆斯基和现任语言学之父诺姆乔姆斯基,以及新任警卫Peter Norvig,导演谷歌的研究。乔姆斯基在评论该领域的发展方向时说:

“假设有人说他想要消灭物理系并以正确的方式去做。“正确”的方式是对视频外部发生的事情录制无数录像带,并将它们输入最大,最快的计算机,数十亿字节的数据,并进行复杂的统计分析 - 你知道,贝叶斯这个和那个 - 而你 - 接下来会对窗外的事情做一些预测。事实上,你得到的预测要比物理系所给出的要好得多。好吧,如果成功被定义为对大量混乱的未分析数据进行公平的近似,那么这样做的方式比以物理学家的方式做得更好,你知道,没有关于无摩擦平面的思想实验等等。等等。

乔姆斯基在其他地方反复强化了这种情绪:当前对自然语言处理成功的定义 - 即预测准确性 - 不是科学。将“一些巨大的文本语料库”投入“复杂的机器”仅仅是“近似未分析的数据”或“蝴蝶收集”,这不会导致对语言的“真正理解”。他认为,科学的主要目标是“发现系统实际运作的解释原则”,实现这一目标的“正确方法”是“让理论引导数据”:通过抽象来研究系统的基本性质通过精心设计的实验消除“无关的入侵” - 就像伽利略以来的现代科学一样。用他自己简洁的话说:
Norvig随后回应了乔姆斯基在长篇文章中的主张,这篇文章挑战了乔姆斯基的科学成功概念,并证明使用概率模型来代表人类语言处理。Norvig指出,语言处理中几乎所有主要的应用领域 - 搜索引擎,语音识别,机器翻译和问答 - 都是由训练有素的概率模型主导,因为它们比基于理论/逻辑规则的旧工具更好地预制。他认为乔姆斯基衡量科学成功的标准 - 强调通过回答为什么同时淡化描述如何重要性的原因来提供见解-被引用理查德·费曼误导:“物理学没有证据能进步,但没有事实,我们不能再继续下去。”而且,也许有点低的打击,弱势族群比喻乔姆斯基的重点放在了“深个为什么 ”比尔O’Reilly的宗教信仰,并提到概率模型“每年创造数万亿美元的收入,而乔姆斯基理论的后代产生的收入低于10亿美元,”引用乔姆斯基在亚马逊上出售的书籍。
Norvig推测,乔姆斯基对“贝叶斯这个和那个”的蔑视真的来自于Leo Breiman所描述的统计模型中两种文化之间的这种分裂:1)数据建模文化,它假设自然是一个随机变量相关的黑匣子,建模者的工作是确定最适合这些基础关联的模型; 2)算法建模文化假设黑盒子中的关联太复杂而无法通过简单模型描述,并且建模者的工作是使用最能用输入变量估计输出的算法,而不期望内部变量的真正基础关联黑匣子可以理解。Norvig表示怀疑乔姆斯基没有与概率模型牛肉(数据建模文化)本身,而是具有“四分之一参数”的算法模型,这些模型不易解释,因此对于解决“为什么”问题没有用。Norvig和Breiman属于2号阵营,他们认为像语言这样的系统过于复杂,随机,并且无法用一小组参数来表示; 抽象出复杂性类似于“制造一个完全适应永恒领域的神秘设施”,这是不存在的,因此“忽略了关于语言是什么以及它是如何工作的观点。”Norvig对此进行了翻倍在另一篇论文中指出他认为“我们应该停止行动,好像我们的目标是创造极其优雅的理论,而是接受复杂性并利用我们拥有的最好的盟友:数据的不合理有效性。”他指出,在语音识别中,机器翻译,以及机器学习到Web数据的几乎所有应用,像“n-gram模型或基于数百万特定功能的线性分类器的简单模型比试图发现一般规则的精细模型表现更好”。
这次辩论最让我着迷的不是乔姆斯基和诺维格不同意的,而是他们的共识:他们都同意用统计学习方法分析大量数据而不理解变量往往比理论产生更好的预测试图模拟变量如何相互关联的方法。而且我不是唯一一个被这个困扰的人:我所谈到的许多具有数学和科学背景的人也认为这是违反直觉的:不应该最好地建立基础结构关系的方法也是最有效的预测能力?或者,如果不真正知道事情是如何运作的,我们怎么利用这种magic?

预测与因果推论

即使在经济学和其他社会科学等学术领域,预测能力和解释力的概念也经常被混淆 - 显示出高解释力的模型通常被认为是高度预测性的。但是,构建最佳预测模型的方法与构建最佳解释模型的方法完全不同,而建模决策通常会导致两个目标之间的权衡。为了说明方法上的差异,这里是“ 统计学习简介 ”(ISL)中预测和推理建模的简短摘要。

预测建模

预测模型的基本原理相对简单:使用一组易于获得的输入X来估计Y.如果X的误差项平均为零,则可以使用以下方法预测Y:

在这里插入图片描述

其中ƒ是由X提供的关于Y的系统信息,当给定X时,其导致Ŷ(Y的预测)。只要准确地预测Y,ƒ的确切函数形式通常是不相关的,并且ƒ被视为“黑盒子。”
这种模型的准确性可以分解为两部分:可减少的误差和不可减少的误差:

在这里插入图片描述

为了提高模型的预测准确性,主要目标是通过使用最合适的统计学习技术来估计f,从而最小化可减少的误差。

推理建模

当我们的目标是理解X和Y之间的关系,即Y如何作为X的函数变化时,ƒ不能被视为“黑盒子”,因为我们无法在不知道函数形式的情况下识别X对Y的影响ƒ。
几乎总是如此,参数化方法用于在建模推断时估计ƒ。参数是指这种方法如何通过假设参数形式的ƒ并通过假设参数估计ƒ来简化ƒ的估计。这种方法有两个一般步骤:
1.假设ƒ的功能形式。最常见的假设是ƒ在X中是线性的:

在这里插入图片描述

2.使用数据拟合模型,即找到参数β0,β1,…,βp的值,使得:

在这里插入图片描述

拟合模型的最常用方法是普通最小二乘法(OLS)。

灵活性/可解释性权衡

您可能已经在想:我们如何知道ƒ是否具有线性形式?因为ƒ的真实形式是未知的,我们实际上并不知道,如果我们选择的模型与真实的ƒ相差太远,我们的估计就会有偏差。那么为什么我们要首先做出如此强烈的假设呢?这是因为模型的灵活性和可解释性之间存在固有的权衡。灵活性是指模型可以生成的形状范围,以适应ƒ的许多不同可能的功能形式,因此模型越灵活,它就能更好地适应,从而提高其预测精度。但是更灵活的模型通常更复杂并且需要更多参数来拟合,并且f的估计通常变得太复杂以至于任何个体预测因子的关联都是可解释的。另一方面,线性模型中的参数相对简单且可解释,即使它在准确预测方面做得不是很好。这是ISL中的一个很好的图表,它说明了不同统计学习模型中的这种权衡:

在这里插入图片描述

正如您所看到的,具有更好预测精度的更灵活的机器学习模型(例如支持向量机和Boosting方法)的可解释性也非常低。通过对ƒ的函数形式进行强有力的假设,使模型更具解释性,推理建模也放弃了过程中的预测准确性。

因果识别/反事实推理

可是等等!即使您使用非常合适的高度可解释的模型,您仍然不能将这些统计数据用作因果关系的独立证据。这是因为“相关性不是因果关系”这句古老而疲惫的陈词滥调,这是一个很好的例子:假设你有一百个旗杆长度,阴影长度和太阳位置的数据。你知道阴影的长度是由杆的长度和太阳的位置引起的,但是即使你将杆的长度设置为因变量而阴影长度作为自变量,你的模型仍然会非常适合具有统计意义这就是为什么不能仅通过统计模型进行因果推论并且需要背景知识的原因 - 推断的因果关系必须通过先前对关系的理论理解来证明。因此,因果推论的数据分析和统计建模通常受到理论模型的严格指导。
…即使你确实有一个坚实的理论依据说X导致Y,确定因果效应仍然是非常棘手的。这是因为估计因果效应涉及识别在没有发生X的反事实世界中会发生什么,这在定义上是不可观察的。这是另一个简洁的例子:假设您想要确定维生素C对健康的影响。你有关于某人是否服用维生素的数据(如果他们这样做则X = 1;否则为0),以及一些二元健康结果(如果他们健康则Y = 1;否则为0),如下所示:

在这里插入图片描述

Y 1代表服用维生素C的人的健康结果,Y 0代表那些不服用维生素C的人的结果。为了确定维生素C对健康的影响,我们估计平均治疗效果:
θ= E(Y 1) - E(Y 0)
但是为了做到这一点,我们需要知道服用维生素C的人的健康结果是什么,他们没服用任何维生素C,反之亦然(或E(Y 0 | X = 1)和E (Y 1 | X = 0)),表中的星号表示不可观察的反事实结果。没有这些输入,不能一致地估计平均治疗效果(θ)。
更糟糕的是,现在想象已经健康的人往往服用维生素C,已经不健康的人往往不会。在这种情况下,即使维生素C实际上对健康没有任何影响,估计也会显示出强烈的治疗效果。在此,先前的健康被称为影响维生素C摄入和健康(X和Y)的混杂因素,这导致对θ的偏差估计。

产生θ的一致估计的最安全的方法是通过实验随机化治疗,使X独立于Y.当治疗随机分配时,未治疗组的结果平均作为对抗事实结果的无偏见代理。治疗组并确保没有混淆因素。A / B测试以该洞察力为指导。但是随机实验并不总是可行的(或者是道德的,如果我们想要研究吸烟或吃太多巧克力饼干对健康的影响),在这些情况下,必须通过观察数据来估计因果效应随机治疗。有许多统计技术通过构建反事实结果或模拟观测数据中的随机治疗分配来识别非实验环境中的因果效应,但正如您可以想象的那样,这些类型的分析结果往往不是非常稳健或可重复。更重要的是,这些方法障碍层并不是为了提高模型的预测准确性而设计的,而是通过逻辑和统计推断的结合来提出因果关系的证据。
测量预测模型的成功比使用因果模型要容易得多 - 虽然预测模型有标准的绩效指标,但评估因果模型的相对成功要困难得多,这可能会使他们在情感上更加难以接受。做。但即使因果关系推论很棘手,也并不意味着我们应该停止尝试。这里的要点是预测模型和因果模型服务于非常不同的目的,需要非常不同的数据和统计建模过程,而且我们通常需要同时进行这两种操作。这个关于电影业的例子说明了这一点:电影制片厂使用预测模型来预测票房收入,以预测戏剧发行的财务结果,评估其电影组合的金融风险/回报等,但预测模型对于理解电影市场的结构和动态,为投资决策提供信息; 这是因为在电影制作过程的早期阶段(通常是发布日期之前的几年),当做出投资决策时,可能结果的方差非常高,因此基于早期阶段输入的预测模型的准确性非常高降级。在大多数生产决策已经完成时,即当预测不再特别可行时,预测模型在戏剧发布日期附近是最准确的。

目前过分强调预测 - 乔姆斯基有没有意义?

从定量研究文献的现状来看,不难看出为什么乔姆斯基感到不安 - 预测模型在学术界和工业界日益占据主导地位。这是对学术预印本的文本分析发现增长最快的定量研究领域越来越关注这十年的预测。例如,在AI中,提及与“预测”相关的术语的论文增长了2倍以上,而提及与“推理”相关的术语的论文自2013年以来已经下降了一半。今天的数据科学课程在很大程度上忽略了因果推理方法和数据科学业界大多期望从业者专注于预测模型。即使像Kaggle和Netflix奖这样的高调数据科学竞赛也总是基于改进预测性能指标。
另一方面,仍有许多领域没有对经验预测给予足够的重视,并且可以从机器学习和预测建模方面取得的进步中受益。但是把目前的状况描述为“乔姆斯基队”和“诺维格队”之间的文化战争似乎是一个错误的选择 - 没有理由我们只能选择一个,并且有很多机会相互交流。两种文化。有大量 的 工作正在做,使机器学习模型更可解释的,我亲自所做的工作格外兴奋苏珊·阿西在斯坦福大学,在因果推理方法适用于机器学习技术(我在写关于他们接下来的几个星期 - 请继续关注!)

在这里插入图片描述

我想不出一个更好的方式来结束高调,并把这个博客带到一个完整的圈子,而不是插入朱迪亚珍珠的工作。Pearl于20世纪80年代领导了人工智能研究工作,该机构允许机器使用贝叶斯网络进行概率推理,但后来成为人工智能唯一关注概率关联的最大批评者。珍珠认为,与乔姆斯基的情绪相呼应“深度学习所取得的所有令人印象深刻的成就仅仅是为数据拟合曲线”,今天人工智能仍然坚持做同样的事情(预测和诊断/分类)机器已经知道如何做30年前,只是略微更好,但预测和诊断“仅仅是人类智能的一角。”他认为,制造真正智能机器的关键在于教会机器思考因果关系,以便机器可以提出反事实问题,计划实验,并找到科学问题的新答案。他过去三十年的工作重点是为机器建立正式的语言,以便使因果推理成为可能,类似于他在贝叶斯网络上的工作,使机器能够建立概率关联。在他的一篇论文中他声称:“人类知识的大部分是围绕因果关系而非概率关系组织的,而概率微积分的语法不足以捕捉这些关系…正因为如此,我认为自己只是半贝叶斯人。”
似乎数据科学将受益于更多的半贝叶斯人。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Adam婷

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值