shlay
喜欢总结记录,点点滴滴
展开
-
论文实现stata《Latent variables and propensity score matching a simulation study ...》
论文:Latent variables and propensity score matching a simulation study …stata实现cd D:\stata_workspaceclear allset seed 191010set obs 5000*set memory 50Mmatrix m = (0,0,0)*matrix sd = (sqrt(2),1,1)*drawnorm X1 X2 X3, n(2000) means(m) sds(sd)matrix c原创 2020-08-18 16:57:38 · 431 阅读 · 1 评论 -
因果推断英文书单整理及简介
因果推断书单整理及简介@TOC1.Causal inference for statistics, social, and biomedical sciences : an introduction[2015]Causal inference for statistics, social, and biomedical sciences : an introduction / Guido W.Imbens & Donald B. Rubin1.1 简介社会和生物医学科学中的大多数问题本质上原创 2020-11-12 08:58:51 · 2894 阅读 · 2 评论 -
因果推断中文书单整理及简介
因果推断中文书单整理及简介@TOC书单1: 为什么:关于因果关系的新科学[2019]书单2: 别拿相关当因果!因果关系简易入门[2016]书单3: 倾向值分析:统计方法与应用[2012]书单4:基本无害的计量经济学:实证研究者指南[2012]原创 2020-11-12 09:54:35 · 5555 阅读 · 142 评论 -
结构方程模型(SEM)理论篇 (SEM 1)
R语言结构方程SEM实现详解1基本理论介绍1.1模型构成1.1.1变量1.1.2路径图1.1.3路径图示例1.1.4 模型拟合整体评价1.1.5SEM形式1.1.6路径分析2可实现软件3lavaan实现原创 2020-11-30 15:34:17 · 21674 阅读 · 4 评论 -
SEM代码篇----R详细实现(SEM 2)
SEM示例1. step1:安装包# install.packages("lavaan")#install.packages("semPlot")#install.packages("semTools")rm(list=ls()) #清除所有变量library(lavaan)library(semPlot)library(semTools)This is lavaan 0.6-7lavaan is BETA software! Please report any bugs.W原创 2020-12-05 20:15:48 · 12540 阅读 · 1 评论 -
因果分析系列1--入门
因果分析系列1--入门因果分析系列1--入门因果简介相关不是因果基本符号定义数值分析偏差图解偏差因果分析系列1–入门因果简介机器学习是目前非常擅长回答问题的一种预测类型。人工智能的新浪潮实际上并没有给我们带来智能,而是智能的一个关键组成部分——预测”。我们可以用机器学习做各种奇妙的事情。唯一的要求是我们把我们的问题当作预测问题。想把英语翻译成葡萄牙语吗?然后建立一个ML模型,在给定英语句子时预测葡萄牙语句子。想认人脸吗?然后建立一个ML模型,预测一张图片的某一部分中是否有一张脸。想造一辆自动驾驶汽车吗原创 2021-03-12 16:13:56 · 4538 阅读 · 6 评论 -
因果分析系列2--随机试验
因果分析系列2--随机试验黄金准则案例分析背景介绍数据分析小结理想实验分配机制小结黄金准则在因果分析系列1–入门我们了解了相关与因果的不同之处。我们也看到了使相关成为因果关系的必要条件,即E[Y∣T=1]−E[Y∣T=0]=E[Y1−Y0∣T=1]⏟ATT+{E[Y0∣T=1]−E[Y0∣T=0]}⏟BIASE[Y|T=1] - E[Y|T=0] = \underbrace{E[Y_1 - Y_0|T=1]}_{ATT} + \underbrace{\{ E[Y_0|T=1] - E[Y_0|T=0原创 2021-03-17 14:42:02 · 2783 阅读 · 1 评论 -
因果分析系列3--几个常用的统计学概念
因果分析系列3--几个常用的统计学概念标准误差置信区间标准误差在上一节中,我们估计了平均处理效应E[Y1−Y0]E[Y_1-Y_0]E[Y1−Y0],即处理组和未处理组的平均值差异E[Y∣T=1]−E[Y∣T=0]E[Y|T=1]-E[Y|T=0]E[Y∣T=1]−E[Y∣T=0]。当时我们计算出了在线课程的ATEATEATE。我们还看到,这是一个负面影响,也就是说,网络课程使学生的表现比面对面的学生差5分左右。现在,我们来看看这种影响是否具有统计学意义。为此,我们需要估计SESESE。我们已经有原创 2021-03-26 21:55:50 · 2170 阅读 · 1 评论 -
因果分析系列4--基于python的因果图模型学习
因果分析系列4--因果图模型1.因果图模型介绍2.基于python绘制因果图模型3.三种常见的因果图结构3.1 链结构(chain)3.2 叉结构(fork)3.3 对撞结构(collider)在上一节中,介绍了因果分析中常用的几个统计学概念:标准误差、置信区间、假设检验和p值。本节将正式介绍因果分析的基本工具之一因果图模型。1.因果图模型介绍图形模型是描述因果关系的语言,便于彼此对因果问题的研究和交流。潜在结果的条件独立性是进行因果推断的主要假设之一,首先对其进行介绍:(Y0,Y1)⊥T∣X(原创 2021-06-12 16:01:56 · 6491 阅读 · 5 评论 -
因果分析系列5--因果分析中的偏差
因果分析系列5--因果分析中的偏差1.混杂偏差2.选择偏差小结在上一节中,介绍了现实中常见的三种因果图结构:链结构(chain)A->B->C;叉结构(fork)A<-B->C;对撞结构(collider)A->B<-C。不管多复杂的结构都可拆解为其中的一种或某几种。基于三种常见的结构有助于我们分别探索三种可能导致的偏差。其中链结构对应选择偏差,叉结构对应混杂偏差,对撞结构对应选择偏差。具体介绍如下所示常见的因果分析偏差主要包含:混杂偏差和选择性偏差。我们将原创 2021-06-19 13:36:12 · 3429 阅读 · 0 评论 -
因果分析系列6--相关,回归与因果
因果分析系列6--相关,回归与因果相关回归回归理论非随机数据的回归分析相关回归在处理因果推断时,我们看到了每个个体有两种可能的结果:Y0Y_0Y0是个体不接受处理时的结果,Y1Y_1Y1是个体接受处理后的结果。现实中我们只能观测到个体的处理状态TTT为0或1的一个潜在的结果,而不可能知道另一个结果。这就导致了个体处理效应是不可知的。Yi=Y0i+Ti(Y1i−Y0i)=Y0i(1−Ti)+TiY1iY_i = Y_{0i} + T_i(Y_{1i} - Y_{0i}) = Y_{0i}(1-T原创 2021-06-27 22:05:51 · 4990 阅读 · 2 评论 -
因果科学网络资源整理
因果科学网络资源整理1.研究范围2.代表人物或团队2.1国际统计学领域2.2国际计算机领域2.3国内代表人物3.经典书籍4.开源工具包5.前沿算法5.1因果发现5.2因果推断6.公开数据集7.公开课8.应用案例1.研究范围2.代表人物或团队下面列举我个人关注比较多的大牛们~2.1国际统计学领域从左至右依次为[超链接为大牛主页]:Jerzy NeymanJames M. RobinsDonald B. RubinTyler J. VanderWeelePaul R. Rosenbaum原创 2021-10-06 19:20:34 · 1343 阅读 · 0 评论 -
社会经济学中的因果分析思想初探
社会经济学中的因果分析思想初探目录1.因果是什么2.因果关系和相关关系3.因果推断的三个层级4.经典因果推断模型5.社会经济学中的因果实证分析5.1随机控制实验5.2自然实验5.3准实验5.3.1准实验--双重差分法5.3.2准实验--工具变量法5.3.3准实验--断点回归法5.3.4准实验--匹配法目录1.因果是什么2.因果关系和相关关系3.因果推断的三个层级4.经典因果推断模型5.社会经济学中的因果实证分析5.1随机控制实验5.2原创 2021-11-30 14:07:33 · 12707 阅读 · 4 评论 -
因果分析系列7--分组和虚拟变量回归
因果推断系列7-分组回归与虚拟变量回归原创 2023-03-10 10:59:16 · 1664 阅读 · 0 评论 -
因果分析系列8----合适的控制变量
通过示例和因果图展示什么样的变量是好的控制变量,什么样的是坏的控制变量,什么样的是基本无害的控制变量原创 2023-03-16 17:28:34 · 1389 阅读 · 0 评论 -
因果分析系列9----不同控制变量的因果图和数据模拟
基于python通过因果图绘制和对应的数据模拟,了解不同属性变量的特征原创 2023-03-23 10:19:28 · 722 阅读 · 0 评论 -
因果分析系列10----工具变量
工具变量的条件、经典论文示例、数值模拟、两阶段最小二乘原创 2023-03-30 12:55:57 · 912 阅读 · 0 评论 -
因果分析系列11----不依从性和LATE
不依从性和局部平均处理效应原创 2023-04-07 00:49:36 · 411 阅读 · 0 评论 -
因果分析系列12----匹配
因果分析匹配思想原创 2023-04-12 19:23:15 · 707 阅读 · 1 评论 -
因果推断系列13----倾向得分
加载第三方包即相应的全局设定。原创 2023-04-19 17:14:19 · 768 阅读 · 0 评论 -
因果推断系列14----双重稳健估计
双重稳健估计思想讲解及代码实现原创 2023-04-27 10:18:35 · 1676 阅读 · 0 评论 -
因果推断系列15----双重差分法
这是非随机数据的常见问题,其中决定对某个地区进行处理的决策基于其对处理的潜在响应能力,或者当处理针对表现不佳的地区时。以我们的市场营销示例为例,我们决定在Porto Alegre市测试广告牌,不是为了检验广告牌的总体效应,而是因为那里的销售表现不佳。差分法常用于评估宏观干预的效果,例如移民对失业率的影响、枪支法律变化对犯罪率的影响,或仅仅是由于市场营销活动导致的用户参与度的差异。Jul是七月份的虚拟指标,或者说是干预后的月份。这个假设是说,在没有干预的情况下,后期的结果将与初始期的结果相同。原创 2023-05-04 10:13:48 · 897 阅读 · 0 评论 -
因果推断系列16-面板数据与固定效应
加载第三方包在中,我们探讨了一个非常简单的双重差分分析(DID),其中有一个接受处理的实验组和一个对照组(分别是城市POA和FLN),仅有两个时期,即干预前和干预后时期。但是如果我们有更多的时期呢?或者更多的组?结果证明,这种情形在因果推断问题中也非常常见,即:面板数据。面板数据是指我们在多个时间段内对同一个体进行重复观察的情况。在政府政策评估中,这种情况经常发生,我们可以跟踪多个城市或州的数据,以及多年的时间。但在工业领域中,这种情况也非常普遍,公司会在多个星期和月份内跟踪用户数据。原创 2023-05-12 14:58:30 · 749 阅读 · 0 评论 -
因果推断系列17 - 合成控制法
因果推断系列17 - 合成控制法Synthetic Control 1. 神奇的数学技巧2. 时间变量3.合成控制vs线性回归4. 外推?5. 推断小结1. 神奇的数学技巧研究双重差分法(DID)时,我们有来自两个不同城市(Porto Alegre和Florianopolis)的多个客户的数据。数据跨越了两个不同的时间段:在Porto Alegre进行市场干预之前和之后以提高客户存款。为了估计处理效应,我们进行了一次回归,得到了DID估计量及其标准误差。在这种情况下,我们有很多样本,数据是个体层面的。原创 2023-05-22 14:43:34 · 1840 阅读 · 0 评论 -
因果推断系列18-断点回归设计(Regression Discontinuity Design,RDD)
你不能在没有芽的情况下长出一棵树,你不能从一个地方瞬间传送到另一个地方,伤口需要时间来愈合,自然的平滑性令人印象深刻。即使在社会领域,平滑性似乎也是一种常态。你不能在一天内让一个企业发展壮大,要建立财富需要持续不断的努力和坚持,学习线性回归需要多年的时间。在正常情况下,自然界是非常协调的,不会跳跃太多。所以,。这些事件通常伴随着与正常事物相反的对照情况:如果发生了奇怪的事情,如果自然以不同方式工作会发生什么。探索这些人为跳跃是断点回归设计的核心。基本设置如下所示。假设你有一个处理变量T和潜在结果Y。原创 2023-05-25 11:51:30 · 1979 阅读 · 0 评论 -
因果推断阶段系列19[阶段2-1]-机器学习预测模型与因果推断
唯一的问题是,在机器学习的所有炒作中,我可能需要让您回归现实,并以非常实际的术语来解释它的真正作用。至于自动驾驶汽车,您可以将其看作不是一个复杂的预测问题,而是多个复杂的预测问题:根据汽车前方的传感器预测轮胎的正确角度,根据车周摄像头预测刹车的压力,根据 GPS 数据预测油门的压力。这可能是您在进行在线营销时的投标价格,也可能是您运输的成本,或者是您需要与客户进行的任何培训,以便他们能够使用您的产品。交叉验证的思想是模拟真实世界,在该世界中,我们在已有数据上估计模型,但在新的、未见过的数据上进行预测。原创 2023-05-30 12:04:32 · 956 阅读 · 0 评论 -
因果推断阶段系列20[阶段2-2]----处理效应的异质性
现实中,事情不是完全黑白分明的。我们关注的不仅仅是平均处理效应,而是允许处理对某些个体产生积极影响,而对其个体产生负面影响。每个个体特征可能对处理产生不同的反应,我们希望做个性化处理,只将处理/干预应用于最能够对其产生良好反应的个体,即将关注的重点从平均处理效应转向处理效应的异质性。在这个世界中,我们不是被动的观察者,所以仅仅估计 E[Y|X]并不是完全正确的。这就是需要进行因果推断的原因,我们需要为我们人为参与数据生成过程的部分添加另一个要素,这个要素就是处理(treatment)。原创 2023-06-06 11:45:48 · 712 阅读 · 0 评论 -
因果推断阶段系列21[阶段2-3]----因果模型评估
大部分关于因果性的资料中,研究人员使用模拟数据来检查他们的方法是否有效。就像我们在一章中所做的那样,模拟生成关于Y0iY_{0i}Y0i和Y1iY_{1i}Y1i的数据,以便检查模型是否正确捕捉到了处理效应Y1i−Y0iY1i−Y0i。这对于学术研究来说是可以的,但在现实世界中,并没有这样的奢侈条件。在将这些技术应用于工业领域时,经常一次又一次的被要求证明为什么我们的模型更好,为什么它应该取代当前的生产模型,或者为什么它不会失效。原创 2023-06-12 11:53:33 · 693 阅读 · 0 评论 -
果推断阶段系列22[阶段2-4]----目标转换后的估计器
因果推断阶段系列22[阶段2-4]----目标转换后的估计器1. 问题提出2. 目标转换3. 连续性处理效应4. 非线性处理效应小结参考文献前面已经学习了在处理样本不是随机分配的情况下存在混杂偏差,如何消除数据偏差。这对于解决因果推断中的识别问题有一定帮助。换句话说,一旦个体是可交换的,或者 $ Y(0), Y(1) \perp X$,就可以学习到处理效应。实际上还远未完成。识别意味着可以找到平均处理效应。换句话说,我们知道处理的平均效应有多大。当然,这是有用的,因为它帮助我们决定是否应该推出某种处理方原创 2023-06-20 13:03:09 · 284 阅读 · 0 评论 -
因果推断阶段系列23[阶段2-5]----元学习器 meta-learners
简要回顾一下,前几节介绍了处理效应异质性,即确定不同个体对处理的反应方式。τxEYi1−Yi0∣XEτi∣X若在连续情况下则为EδYit∣X。换句话说,即了解个体对处理的敏感程度。这在我们无法对所有人进行处理并需要对处理进行优先级排序的情况下非常有用,例如当您想要提供折扣但预算有限时。之前,我们看到了如何转换结果变量Y,以便将其插入预测模型并获得条件平均处理效应(CATE)估计。目标转换会增加方差。原创 2023-06-26 12:12:52 · 677 阅读 · 0 评论 -
因果推断阶段系列24[阶段2-6]----偏置/正交机器学习--R-Learner
本节介绍的元学习器实际上是在它们被称为元学习器之前就出现了。它来自一篇2016年的精彩论文,为因果推断领域开辟了一个富有成果的研究领域。这篇论文名为。原创 2023-07-04 14:28:43 · 526 阅读 · 0 评论