Stata连享会
Stata连享会,由连玉君老师团队分享Stata使用的技巧和经验。
Stata现场培训\专题课程:https://github.com/arlionn/stata
arlionn
毕业于西安交通大学,现任教于中山大学岭南学院。公众号「连享会 (ID:lianxh_cn)」创办人。
展开
-
论文复现:装模做样的IV
针对可能存在的问题,本文提出四种补救措施,以帮助研究人员克服这些困难:第一,在构建工具变量回归的理论基础时,应当考虑使用同一工具变量的其他已发表结果。第二,使用最新的方法来检验工具变量违反排除限制的敏感性。第三,用补充的方法来评估工具变量强度,打开 GMM 的“黑箱”。第四,使用弱工具稳健检验和估计量。转载 2024-09-22 10:17:54 · 152 阅读 · 0 评论 -
xtusreg:时间间隔不等情况下的动态面板估计
估计固定效应动态面板回归模型的传统命令xtabond要求模型的时间间隔必须是三个连续的时间段或两对两个连续的时间段。但是现实研究中有许多数据的观测都不满足上述要求,所以我们需要借助不规则时间间隔的面板数据估计方法来实现更多动态面板回归模型的参数估计。本推文将要介绍的新命令xtusreg我们考虑如下模型:其中,yityit 和 xitxit 分别为被解释变量和解释变量,αiαi 表示个体固定效应,εitεit 为随机干扰项。转载 2024-09-22 10:08:00 · 124 阅读 · 0 评论 -
Stata:一组大幅提升运算速度的命令-gtools
对于大部分 Stata 用户来说,相对小量、简单的数据统计或数据处理乃日常上机必走的工序,对 Stata 的运行效率并没有什么感知。然而,当数据集异常庞大时,你不得不对着运行界面发愣,而旁边的人由于用上。可以查看命令组中所包含的主要命令。的速度最高可达 Stata 传统命令的近 20 倍,可以说是当之无愧的效率达人!命令组早早看到了输出结果,这种“知觉”将立马苏醒!转载 2024-09-21 21:35:11 · 422 阅读 · 0 评论 -
Stata数据处理:缺失值填充-autofill-carryforward
autofill命令直译为自动填充,可利用 Stata 数据中已有的数值来填充缺失值。它应用范围广泛,适用于 Stata 中所有类型的缺失值。此外,该命令还可以按组别对缺失值进行补全,这对分组处理数据缺失值有极大助益。其中,varlist对应数值中含有缺失值的变量。对于如果选择forward,程序将使用现有的数值来替换它们之前的缺失值。如果选择backward,程序会使用现有的值来替换它们之后的缺失值。选择一个变量,按照其连续相同的观察值进行分组。在每一个分组中独立执行autofill命令。转载 2022-12-31 12:29:52 · 7293 阅读 · 0 评论 -
Stata数据处理:快速转换Wind数据-reshapewind
如何简单而又快速地将从 Wind 数据库或者 Choice 金融终端下载的年度、季度数据转化为计量经济学所要求的面板数据类型,一直是实证分析中一个不可避免的问题。为此,笔者遵循简单原则,将机械重复的处理过程封装进。命令中,以此来帮助同学们更加高效地完成数据处理。转载 2022-12-31 12:27:22 · 2032 阅读 · 0 评论 -
总体与样本:定义、差异与示例
总体:通常指研究者感兴趣的问题所涉及的整个群体,既可以是有限的也可以是无限的。样本:指由研究者从总体中抽出的一部分个体所组成的集合,样本集合中个体的数量往往小于总体中个体的总数。Population 这个词汇具有一种引导研究者将总体概念与人类联想在一起的思维倾向,但是在实际研究中,总体可以是我们所感兴趣任何群体:对象、事件、组织、国家、物种、生物等等。总体概念的关键并不在于它指代的到底是什么,而在于不论它指代的具体是什么,它必定包含这个被指代对象的全集。转载 2022-12-31 12:26:28 · 646 阅读 · 0 评论 -
Stata:最大似然估计(MLE)简易教程
本文主要是介绍最大似然估计 (MLE) 的一些基础知识,并演示如何在 Stata 软件中进行最大似然估计。转载 2022-12-31 12:19:38 · 1759 阅读 · 0 评论 -
Stata:如何理解三个变量的交乘项?
多元回归模型中经常包含交互项,也会出现三个连续变量交互的情况,但是应该如何理解三项交互的含义呢?我们摘译了 UCLA FAQs 中的相关介绍,从斜率的角度加以解释:How can I understand a 3-way continuous interacation?。转载 2022-12-31 12:17:50 · 4401 阅读 · 0 评论 -
Stata:高度共线性情况下的IV估计-pariv
本推文介绍了 Young (2022) 所提出的,适用于高度共线性下的稳健 2SLS 估计方法,以及其在 Stata 内的实现代码与过程。转载 2022-12-31 12:14:21 · 335 阅读 · 0 评论 -
Stata:Mundlak方法的DID-jwdid
Wooldridge 证明了双向固定效应 (TWFE) 与包括单位时间均值和时间段特定横截面平均值的混合 OLS (他称之为双向 Mundlak (TWM) 回归) 的结果具有等价性。该等价意味着异质趋势的标准策略可用于放宽共同趋势假设,尤其对渐进型 DID 有效。此外,双向 Mundlak 回归也很容易适应非线性模型,例如指数模型和 logit 和 probit 模型。Stata 的命令jwdid提供了基于 TWM 法的估计结果。转载 2022-12-31 12:13:00 · 607 阅读 · 0 评论 -
Stata:计算绿色全要素生产率-gtfpch
Chung 等 (1997) 把环境污染视为非期望产出,开创性的采用方向性距离函数,并结合 Malmquist-Luenberger 指数测算出了瑞典 39 个造纸厂在 1986-1990 年的绿色全要素生产率。由于这一指数在传统 DDF 基础上加入了非期望产出,因此可以称之为绿色全要素生产率。测算绿色全要素生产率的主要工具是 MLPI,随后又延伸出了四种比较重要的绿色生产率测算方法,分别是序列 MLPI (SMLPI) 、全域 MLPI (GMLPI) 、两期 MLPI (BMLPI) 和共同前沿 MLP转载 2022-12-31 11:56:17 · 5002 阅读 · 0 评论 -
最新最全参考文献:气候经济、环境经济、能源经济
本文内容摘录自 Asjad Naqvi 教授的 github 仓库 climate-econ。该仓库一直在更新,网址为:https://github.com/asjadnaqvi/climate-econ转载 2022-12-11 19:27:05 · 285 阅读 · 0 评论 -
工具变量:教育回报IV探讨
教育回报IV探讨转载 2022-12-11 19:24:51 · 654 阅读 · 0 评论 -
做学术需要搞清楚计量经济学里全部的数学原理吗?
做学术是否需要搞清楚高级计量经济学里的原理呢?转载 2022-12-11 19:22:22 · 485 阅读 · 0 评论 -
Stata编程:暂元local和global的使用技巧
在使用 Stata 运算时,每个人或多或少都曾遇到过变量繁多、程序复杂,让人眼花缭乱,以及不断做重复性步骤,降低工作效率。其实,Stata 中的暂元 (macros) 以有效解决这些问题。接下来,我们将从暂元 (macros) 的定义、种类、使用技巧和注意事项等几个方面做一个梳理,以帮助大家快速了解暂元。转载 2022-12-11 19:20:33 · 8272 阅读 · 0 评论 -
DID-倍分法:事前趋势检验的局限性和诊断
通常来说,我们希望事前趋势的系数都显著的不异于 0。然后我们就得出结论,因变量的事前趋势在处理组和控制组之间是很相像的。因此,控制组是“良好的”。Roth (2022) 这篇文章告诉我们,pre-trend test 有两个问题。转载 2022-12-11 19:18:51 · 1334 阅读 · 0 评论 -
对PhD一年级新生有什么建议?
本文旨在整理知乎热议上对 PhD 一年级新生在课业学习、科研日常、导师指导以及生活休闲等方面的宝贵建议,给正在读或者即将读 PhD 一年级的新生提供可供借鉴的经验与教训。转载 2022-12-11 19:15:11 · 260 阅读 · 0 评论 -
Stata:如何理解回归中的控制
如何理解回归中的控制转载 2022-12-09 12:37:22 · 5137 阅读 · 0 评论 -
Stata绘图:COVID-19数据可视化
在本操作指南中,我们将要学习如何从Our World in Data网站中获取公开的新冠肺炎数据,并在 Stata 中绘制“山脊图” (也叫“峰峦图”或“堆叠图”)。在本指南的最后,我们将学习绘制下面的图片。转载 2022-12-09 12:35:15 · 534 阅读 · 0 评论 -
一组动图读懂因果推断
一组动图读懂因果推断转载 2022-12-09 12:33:21 · 216 阅读 · 0 评论 -
连玉君-Marp:用Markdown快速写幻灯片
如果大家平时制作的幻灯片不需要太复杂的设定,例如,以汇报工作为主,或者幻灯片中需要嵌入 Stata/R/Python 代码,以及 数学公式,可以考虑使用 Marp 写幻灯片。转载 2022-12-09 12:14:36 · 409 阅读 · 0 评论 -
Stata:合成控制法的预测区间-scpi
本文拓展了合成控制法的不确定性量化,提出了 SC 框架下的条件预测区间:将潜在的结果变量作为随机变量,并采用有限样本概率集中的方法,为 treated unit(s) 在干预后的反事实结果制定预测区间,从而提供了一种评估统计不确定性的 (有条件的) 替代推断方法。转载 2022-12-09 12:12:43 · 515 阅读 · 0 评论 -
Stata:为什么计数类变量不宜采用log(1+y)的形式?-ppmlhdfe
对于计数的非负变量,如企业专利数量、有毒排放吨数、工伤事故数量,以及两家企业所在城市之间的距离,其通常高度右偏,且在 0 处有大量的值。这种分布特征对回归分析提出了挑战,它使得线性回归效率低下,以及置信区间难以确定。为了解决这一问题,学者们通常会取对数。然而 Cohn 等 (2022) 认为, 作为因变量的回归系数缺乏有意义的解释,并可能导致符号错误,更好的做法是使用泊松回归。转载 2022-12-09 12:08:14 · 1595 阅读 · 0 评论 -
Stata:固定效应的颗粒度选择:实践与陷阱
在实证研究中,时间和个体双重固定效应模型随处可见。但在对个体固定效应选择时,究竟是选择更细的公司固定效应还是更粗的行业固定效应?为什么有时两种控制方法会使结果产生显著性变化,甚至符号变化?本文进一步总结了实践中固定效应模型的使用,并结合具体问题探讨了 “个体” 固定效应选择层级的问题。转载 2022-12-09 12:05:04 · 675 阅读 · 0 评论 -
你见过最烂的代码长什么样子?
你见过最烂的代码长什么样子?转载 2022-12-09 12:02:38 · 186 阅读 · 0 评论 -
Stata:手动实现置换检验(permutation)和自抽样(bootstrap)
Permutations 是通过置换样本顺序,重新计算统计检验量并构造经验分布,在此基础上求出值进行推断。bootstrap 模拟程序不会对观测数据重新排序,而是基于这一集合的经验分布,从样本中重复抽样进行推断。某种意义上,bootstrap 和 permutation 分别对应于在有替换和无替换的情况下从经验分布中均匀随机地选择值。转载 2022-12-09 11:59:50 · 1566 阅读 · 0 评论 -
Stata:因子变量系数引用技巧-coeflegend
因子变量 (Factor Variable) 是对现有变量的延伸,是从类别变量中生成虚拟变量、设定类别变量之间的交乘项、类别变量与连续型变量之间的交乘项或连续变量之间的交乘项 (或多项式)。在用 Stata 进行回归分析时,经常会进行剔除样本值、增减控制变量等操作,这使得因子变量的系数并不固定。因此,当我们想用估计系数值进行其它计算时,就需要不断修改对应值。此时,通过使用引用因子变量系数的方法,就会节省大量工作量。转载 2022-12-07 17:26:55 · 569 阅读 · 0 评论 -
50问-T2:面板因果推断常见问题-对话徐轶青老师
本文整理前两讲中学员有关课程中面板数据选取和处理、统计推断及估计偏误、数据匹配、“赛马”机制、控制变量选取、聚类问题、异质性研究、研究结果解读、研究实操中所遇到和关注的问题,并由徐老师和助教一一解答。转载 2022-12-07 17:24:44 · 174 阅读 · 0 评论 -
聚类异质性:使用summclust进行统计推断
MacKinnon 等 (2022) 为聚类推断的有效性提供了检验方法。他们认为通过一系列特征统计量的分布特征可以分析聚类的有效性,并提供了 Stata 命令summclust。接下来,本文将介绍 MacKinnon 等 (2022) 提出的聚类有效性分析思路以及 Stata 实操过程,以便加深读者对于相关内容的理解,提高实证研究的可靠性。转载 2022-12-07 17:18:41 · 328 阅读 · 0 评论 -
Stata:正确理解置信区间
无论是描述性统计还是检验统计量,都是基于总体的样本进行估计的,因此存在不确定性。置信区间是指以同样的方式重新对总体抽样时,期望的估计出现在一定范围内的概率。转载 2022-12-07 17:09:50 · 1789 阅读 · 0 评论 -
Stata:处理衡量偏误-变量误差模型的一些建议
在本文中,我们对eivreg和sem这两种常见的变量误差 (errors-in-variables, EIV) 回归方法进行比较,并给出建议。转载 2022-12-07 17:07:17 · 563 阅读 · 0 评论 -
Stata:广义Heckman两步法-gtsheckman
传统的 Heckman 两步法可以解决样本选择造成的内生性问题,但仍忽视了由样本个体异质性造成的内生性问题。为了克服这一缺陷,Carlson 和 Joshi (2022) 提出了广义 Heckman 两步法 (又称作 gtsheckman)。它类似于两步一致 Heckman 估计,但允许第一步选择方程中存在异方差,以及更一般化的控制函数形式。Carlson 和 Joshi (2022) 编写了广义 Heckman 两步法的 Stata 命令gtsheckman。本文的主要目的是介绍该命令的使用转载 2022-12-07 17:01:38 · 1152 阅读 · 0 评论 -
Stata与R语言等价命令
本文总结了常见的 Stata 计量经济分析命令,并提供它们在 R 中的等效命令。更多关于导入/清理数据、变量转换和其他基本命令可参考 Hanck 等 (2019) 的《Econometrics with R》,以及 Wickham 和 Grolemund (2017) 的《R for Data Science》。转载 2022-12-07 16:57:57 · 350 阅读 · 0 评论 -
Stata:非线性模型的交互效应
尽管目前已经建立了正确的非线性模型,并且能够对线性交互效应正确解释,但是非线性模型与交互效应在实证中往往被错误地估计、解释和呈现。为此,本文将对非线性交互效应的估计、解释和呈现提供简单的说明与指导。转载 2022-12-07 16:55:25 · 999 阅读 · 0 评论 -
知乎热议:发Top5和FieldTop是什么感觉?
本文是连享会推文「知乎热议:发顶刊是什么感觉?」的姊妹篇,继整理了发表《经济研究》、《管理世界》等国内经济学顶刊的感觉后,又整理了发表 Top 5、Field Top 等国际经济学顶刊的感觉,给致力于发表高质量经济学论文的学者提供借鉴经验。转载 2022-11-21 10:41:52 · 565 阅读 · 0 评论 -
Stata结果输出:绘制亮眼表格的十条建议
表格是可视化数据的一种独特形式。好的表格设计应该是视觉效果与目的的统一,能够帮助作者进一步阐明正在讲述的故事。本文将结合连享会以往关于「结果输出」的推文,介绍表格的正确结构、设计更好表格的建议,以及分析原文作者 Schwabish 如何重新设计表格。转载 2022-11-21 10:39:30 · 1330 阅读 · 0 评论 -
Stata:RDD与RKD的最优模型选择-pzms
本文提出了一种用于 RDD、RKD 和相关 IV 估计模型选择的新方法。该方法允许产生带宽、多项式和任何其他选择参数的最佳组合。同时,这种方法还可以告知模型类别的选择 (例如 RDD 与 cohort-IV) ,以及任何其他选择,包括协变量、核密度或其他权重等。转载 2022-11-21 10:36:35 · 283 阅读 · 0 评论 -
Python:文本分析必备—搜狗词库
jieba库是进行中文分词的一大利器,但jieba自带的词典并不完美。在实际操作过程中,用户需要添加特定的词典,来提高分词的准确性。搜狗细胞词库是外部词典的重要来源之一,提供了 12 类近 6000 个细胞词库。本文将详细展示搜狗词库的爬取和整理过程,并提供搜狗词库文本文档资源 (TXT 格式),读者可点击「搜狗词库」下载。转载 2022-11-21 10:21:26 · 540 阅读 · 0 评论 -
Stata与Github交互
GitHub 是一个版本控制和协作的代码托管平台。无论你和同伴身处何地,它都可以让你们一起合作开发项目。此外,在 GitHub 上,人们还可以关注其他代码开发项目、访问数据集并使用一整套能够展示代码功能的语言建立交互式网站。它的一个优点是所有这些都是免费的。鉴于 GitHub 的重要性,本文旨在介绍如何在 Stata 中使用 Git 语言来同步 GitHub 的文件。转载 2022-11-21 10:19:13 · 416 阅读 · 0 评论 -
发顶刊是什么感觉?
本文旨在整理知乎热议上关于发表国内经济学顶级期刊和 SSCI 论文的体验,给经济学研究道路上不懈奋斗的青年学者提供可供借鉴的经验与教训。转载 2022-11-21 10:17:03 · 190 阅读 · 0 评论