
stata数据处理
文章平均质量分 51
arlionn
毕业于西安交通大学,现任教于中山大学岭南学院。公众号「连享会 (ID:lianxh_cn)」创办人。
展开
-
Stata数据处理:缺失值填充-autofill-carryforward
autofill命令直译为自动填充,可利用 Stata 数据中已有的数值来填充缺失值。它应用范围广泛,适用于 Stata 中所有类型的缺失值。此外,该命令还可以按组别对缺失值进行补全,这对分组处理数据缺失值有极大助益。其中,varlist对应数值中含有缺失值的变量。对于如果选择forward,程序将使用现有的数值来替换它们之前的缺失值。如果选择backward,程序会使用现有的值来替换它们之后的缺失值。选择一个变量,按照其连续相同的观察值进行分组。在每一个分组中独立执行autofill命令。转载 2022-12-31 12:29:52 · 7291 阅读 · 0 评论 -
Stata数据处理:快速转换Wind数据-reshapewind
如何简单而又快速地将从 Wind 数据库或者 Choice 金融终端下载的年度、季度数据转化为计量经济学所要求的面板数据类型,一直是实证分析中一个不可避免的问题。为此,笔者遵循简单原则,将机械重复的处理过程封装进。命令中,以此来帮助同学们更加高效地完成数据处理。转载 2022-12-31 12:27:22 · 2030 阅读 · 0 评论 -
Stata:为什么计数类变量不宜采用log(1+y)的形式?-ppmlhdfe
对于计数的非负变量,如企业专利数量、有毒排放吨数、工伤事故数量,以及两家企业所在城市之间的距离,其通常高度右偏,且在 0 处有大量的值。这种分布特征对回归分析提出了挑战,它使得线性回归效率低下,以及置信区间难以确定。为了解决这一问题,学者们通常会取对数。然而 Cohn 等 (2022) 认为, 作为因变量的回归系数缺乏有意义的解释,并可能导致符号错误,更好的做法是使用泊松回归。转载 2022-12-09 12:08:14 · 1591 阅读 · 0 评论 -
Stata数据处理:模糊匹配-reclink2-matchit-strgroup
模糊匹配是指在比较中找到近似匹配或最为相似的字符串的技术 (区别于完全匹配/精确匹配),使用这种算法类型的命令通常会给出匹配的概率。模糊匹配,顾名思义,其合并数据的匹配准确度会低于精确匹配。本文是在模糊匹配相关推文「Stata:模糊匹配之 matchit」和「Stata:模糊匹配-matchit-reclink」的基础上增加了 Stata 命令strgroup用法以及strgroup、reclink2和matchit的注意事项和应用实例,以帮助大家更好地理解和应用模糊匹配的相关命令。转载 2022-10-02 21:09:22 · 2252 阅读 · 0 评论 -
Stata数据处理:批量重命名变量的技巧-rename
变量重命名是实证分析中的必要操作。当然,如果仅仅是单变量的重命名,直接使用命令语句 rename var1 var2即可。但是,如果情况稍加复杂,比如同时重命名十几个甚至更多变量,工作量就会变的非常大,此时就很有必要掌握批量重命名的技巧了。转载 2022-09-19 15:46:40 · 8888 阅读 · 0 评论 -
Stata:缺失值填充的又一利器!
Stata 中的缺失值 (missing value) 是一个大于任何自然数的数,并以 . 呈现。其基础知识大致分为三部分:标记、查找/删除和补充。本文主要介绍 Stata 中功能较为全面的用以补充缺失值的第三方命令:fillmissing。转载 2022-09-19 15:42:46 · 5860 阅读 · 0 评论 -
Stata+Python:导入超大Excel文档的新思路-以国泰安为例
以 CSMAR 上市公司数据库董监高个人特征数据为例,原始 Excel 文档高达 180MB ,Stata 无法直接导入。对于该问题,网络上已有相关讨论,连享会《命令导入 Excel 文档方便且高效。但 Stata 在导入体积超过 40MB 的 Excel 文档时会报错并提示文档过大。除此之外,也可以在下载阶段就将大型数据分为若干文档以满足 Stata 导入要求。》总结了四种处理该问题的方法并列出了优缺点。...转载 2022-08-11 18:55:40 · 1024 阅读 · 0 评论 -
Stata:宽数据到长数据的转换-tolong
在数据分析中,我们经常通过reshape命令将宽数据转换为长数据。关于reshape命令的详细介绍,可参考连享会推文「reshape 命令一文读懂 (上)」和「reshape 命令一文读懂 (下)」。但是,当数据量较大时,reshape命令非常耗时。为此,我们介绍一个快速实现转换的新命令tolong。...转载 2022-08-09 18:28:24 · 2721 阅读 · 0 评论 -
Stata数据处理:数据框使用教程
在 Stata16 以后,Stata 开始允许使用数据框。这意味着我们可以将多个数据集存储在 Stata 内存中,并对不同的数据集同时进行处理。对于经常处理单一大型数据的人来说,他们再也不用总是 了,也不用再将无数个数据集合并到一起,这大大提高了数据处理的效率。为了实现上述目的,我们需要学会如何使用数据框,以及如何在不同的数据框之间建立联系。...转载 2022-06-10 20:07:28 · 368 阅读 · 0 评论 -
Stata数据处理:将字符变量编码为数值变量-encoder
全文阅读:Stata数据处理:将字符变量编码为数值变量-encoder| 连享会主页目录1. encode 命令 2. sencode 命令 3. encoder 命令和 encoderall 命令 4. 相关推文 1. encode 命令encode命令可以将字符型变量转换为数值型变量。具体地,将字符变量的不同取值,按照字母排列顺序分别映射到数值 1, 2,...,并为生成的数字变量添加值标签。全文阅读:Stata数据处理:将字符变量编码为数值变量-encoder| .转载 2022-05-21 00:11:47 · 9381 阅读 · 0 评论 -
CHARLS-中国健康与养老调查数据库清洗(一)
全文阅读:CHARLS-中国健康与养老调查数据库清洗(一)| 连享会主页目录CHARLS中国健康与养老调查数据清洗(一) 1. 引言 2. 注册与下载 3. 常见问题 3.1 城市信息 3.2 调查时间 3.3 Harmonized CHARLS 3.4 保险 3.5 收入 3.6 体检数据 4. 结束语 5. 参考文献 6. 相关推文全文阅读:CHARLS-中国健康与养老调查数据库清洗(一)| 连享会主页...转载 2022-04-03 21:36:14 · 5009 阅读 · 0 评论 -
Stata数据处理:快来更新你的Stata-Workflow
全文阅读:Stata数据处理:快来更新你的Stata-Workflow| 连享会主页目录作者介绍 0. 前言 1. Part1:文件夹的结构组织和内容的「分门别类」 1.1 小型项目的组织 1.2 大型项目的组织 2. Part2:合适的命名 3. Part3:每个 do 文件只做一件事儿 4. Part4:在 dofiles 中使用相对路径 5. Part5:代码风格化 6. 相关推文作者介绍Asjad Naqvi,目前在奥地利维也纳工作,任职于维也纳经济与商业大转载 2022-03-25 23:57:36 · 353 阅读 · 0 评论 -
Stata数据处理:清洗中国城市建设统计年鉴
目录1. 建立文件夹体系 2. 下载相关数据 3. 取消密码保护 4. 数据清洗 4.1 循环导入单个 Excel 文件 4.2 合并多个 DTA 文件 5. 与行政区划代码数据进行对接 5.1 Stata 爬取行政区划代码数据 5.2 构建省级面板 5.3 构建地市级别面板 6. 相关推文统计年鉴的数据不仅逐年下载麻烦,而且相较于 CSMAR、CEIC 等其他商业数据库的处理难度也更大一些。转载 2022-03-25 23:41:14 · 998 阅读 · 0 评论 -
CFPS数据处理:少儿代答库与成人库匹配
全文阅读:CFPS数据处理:少儿代答库与成人库匹配| 连享会主页目录1. 引言 2. 数据获取 3. 匹配思路 4. 匹配步骤 5. 变量计算 6. 相关推文1. 引言本文主要有两个目标:第一,将 CFPS 少儿代答库与成人库进行匹配; 第二,围绕子女数量计算一些在未来研究中可能用到的变量,如成年子女数量、未成年子女数量、男孩数量、女孩数量、 0-3 岁子女数量等。本文后续将围绕上述两个目标展开,并以 2018 年 CFPS 数据为例展示相关过程。全文阅读:CFP转载 2022-03-10 16:52:33 · 3089 阅读 · 0 评论 -
Stata:资本存量测算-张军法-单豪杰法
全文阅读:Stata:资本存量测算-张军法-单豪杰法| 连享会主页目录1. 缘起 2. 永续盘存法 2.1 基期资本存量的确定 2.2 折旧率 2.3 投资 2.4 投资价格指数 3. 数据预处理 3.1 数据来源 3.2 数据处理 4. 资本存量计算 4.1 简便方法 4.2 复杂方法 5. 城市资本存量 5.1 数据清洗 5.2 计算城市资本存量 5.3 绘图比较 6. 结语与不足 7. 数据和程序下载 8. 参考文...转载 2022-03-01 20:00:46 · 2073 阅读 · 0 评论 -
Stata:强大的变量管理命令-vl
全文阅读:Stata:强大的变量管理命令-vl| 连享会主页目录1. 命令介绍 2. 案例演示 2.1 定义变量列表 2.2 变量列表运算 3. 相关推文在代码写作过程中,你是否每个回归都要重复写一堆相同的控制变量?又或者是,在设定全局暂元代替这一堆控制变量后,某些回归又需要增加或删减控制变量?对于上述繁琐的变量管理问题,vl命令将会大有帮助。1. 命令介绍vl是一套用于创建和管理变量列表的命令,适用于数十个甚至数千个变量的大数据。该命令包括系统命令和用户命令,具体来..转载 2022-01-14 17:22:35 · 1499 阅读 · 0 评论 -
Stata:模糊匹配-matchit-reclink
全文阅读:Stata:模糊匹配-matchit-reclink| 连享会主页目录1. 引言 1. `matchit` 命令 1.1 命令简介 1.2 实例:使用 `matchit` 命令匹配两个数据集中的公司名称 2. `reclink` 命令 2.1 命令简介 2.2 实例:使用 `reclink` 命令匹配两个数据集中的公司名称 3. 总结 4. 参考资料 5. 相关推文1. 引言关于匹配,我们最常用的匹配命令为merge,详见help merg...转载 2022-01-14 17:18:29 · 3026 阅读 · 0 评论 -
Stata数据处理:批量处理被保护的年鉴数据-dxls-txls
全文阅读:https://www.lianxh.cn/news/6f1b8057418de.html目录1. 引言 1.1 在知网下载统计年鉴 1.2 知网数据的文件保护 2. 导入被保护的数据 2.1 另存为 csv 格式 2.2 xlstocsv 命令 2.3 VBA 宏代码 2.4 dxls 和 txls 命令 3. 结语 4. 相关推文1. 引言统计年鉴是学术研究中最重要的数据来源之一。常用的数据收集方法有下载光盘版解压和知网下载。较之知网,光盘转载 2021-11-19 13:21:09 · 753 阅读 · 0 评论 -
Stata数据处理:快速合并与编码-encodefrom
全文阅读:https://www.lianxh.cn/news/d5fd580ead246.html目录1. encodefrom 命令 1.1 命令的基本功能 1.2 命令的基本语法 2. Stata实例 2.1 实例背景 2.2 encodefrom 实现 2.3 常规方法实现 3. 相关推文1. encodefrom 命令1.1 命令的基本功能encodefrom命令可以利用一个存储在外部文件夹中的值和标签对变量进行编码。将原始值与对应数据值的映射.转载 2021-11-19 13:09:46 · 2862 阅读 · 0 评论 -
Stata数据标签和合并
全文阅读:Stata 数据标签和合并| 连享会主页目录1. 批量设定标签 2. 快速实现表格合并 2.1 merge 的横向合并 2.2 append 的纵向合并 3. 相关推文1. 批量设定标签在处理 Stata 数据的时候,数据标签的处理一直是让很多人感到头疼的存在。本推文将提供一种更适合小白上手的方式,来快速实现标签的转换!具体原理与命令语法,请参考连享会推文「Stata 数据处理:nrow + labone 的巧妙使用」。全文阅读:https://www.l.转载 2021-11-12 19:22:50 · 1515 阅读 · 0 评论 -
Stata数据处理:iefieldkit命令介绍
全文阅读:https://www.lianxh.cn/news/3c7d4aefb339a.html目录1. 引言 2. iefieldkit 主要功能 2.1 ietestform 命令 2.2 ieduplicates 和 iecompdup 命令 2.3 iecodebook 命令 3. 总结 4. 参考文献 5. 相关推文1. 引言iefieldkit命令由世界银行 DIME (World Bank's Development Impact Evaluati.转载 2021-10-27 20:20:12 · 197 阅读 · 0 评论 -
Stata日期格式转换
全文阅读:https://www.lianxh.cn/news/14538b2dcab13.html1. 应用场景 2. 格式转换 3. 相关推文全文阅读:https://www.lianxh.cn/news/14538b2dcab13.html转载 2021-10-27 20:01:55 · 6555 阅读 · 0 评论 -
ereplace命令介绍
全文阅读:https://www.lianxh.cn/news/936fd93c1e559.html目录1. 引言 2. `ereplace` 命令介绍 2.1 安装 2.2 命令简介 3. 实例 3.1 `replace`和`ereplace`使用对比 3.2 分组替换变量内容 4. 结语 6. 相关推文1. 引言在使用 Stata 进行数据处理时,我们往往不仅需要生成新的变量,还需要替换原有变量。对于一些简单的变量替换过程,一般我们采用 Stata 的官转载 2021-10-26 22:44:06 · 2399 阅读 · 0 评论 -
Stata:面板数据缺失值与多重补漏分析-twofold
全文阅读:https://www.lianxh.cn/news/77d0d450a3024.html目录1. 面板数据多重补漏潜在问题 2. 二重 MICE 算法 2.1 二重 MICE 插补优点 2.2 二重 MICE 插补命令 3. 多重补漏敏感性分析 4. 参考资料 5. 相关推文在缺失值与多重补漏分析的前三讲中,我们讲述了截面数据多重补漏的 MVN 与 MICE 方法,它们可以直接适用于面板数据吗?关于前三讲推文,详见Stata数据处理:缺失值与多重补漏分析 (一)、转载 2021-10-26 22:27:02 · 4899 阅读 · 0 评论 -
Stata:缺失值与多重补漏-misstable
全文阅读:https://lianxh.cn/news/36e27e170ddef.html目录1. MICE 方法 Stata 实操 1.1 查看数据 1.2 构建模型 1.3 插补诊断 2. 非线性插补 Stata 实操 2.1 定义回归模型 2.2 构建 Passive Variable 2.3 PMM 方法多重插补 3. 参考文献 4. 相关推文在前三讲中我们讲述了有关截面数据多重插补的理论框架,在本讲中,我们将通过多重插补的实例演示来加深大家对多重转载 2021-09-22 09:36:34 · 5013 阅读 · 1 评论 -
Stata:inlist和inlist2命令介绍
全文阅读:https://lianxh.cn/news/fbd4c9c02a545.html目录1. 背景介绍 2. 命令介绍 2.1 inlist 命令 2.2 inlist2 命令 3. 具体示例 4. 相关推文1. 背景介绍在清洗数据过程中,我们经常需要对变量进行重新赋值。例如,基于我国各个省份定义East、Midlle、West三个虚拟变量,或者基于国家名称或代码定义Yes_OECD国家虚拟变量。针对上述问题,常用方法是通过if条件语句对变量赋值。但...转载 2021-09-22 09:31:55 · 5022 阅读 · 0 评论 -
Stata数据处理:一文读懂微观数据库清理(下)
全文阅读:https://lianxh.cn/news/cb05be5a4dc6e.html目录4. 数据清理 4.2 多变量清理 5. 综合变量生成 5.1 观测值组间计算-根据观测值分组 5.2 观测值组内计算-变量分组 6. 数据清理管理 7. 注意事项 8. 参考资料 9. 相关推文 4. 数据清理4.2 多变量清理数据中有些问题不是关于某一特定变量取值不合理,有时需要联合其他变量才能发现其不合理的地方。多变量的清理建立在单变量清理完成的基转载 2021-09-20 15:23:24 · 767 阅读 · 0 评论 -
Stata数据处理:iebaltab和ieddtab命令介绍
全文阅读:https://lianxh.cn/news/f7112283137be.html目录1. iebaltab 命令 1.1 命令介绍 1.2 具体示例 1.3 Stata 实操 2. ieddtab 命令 2.1 命令介绍 2.2 Stata 实操 3. 相关资料 4. 相关推文ietoolkit软件包是由世界银行发展影响评估部门 (Development Impact Evaluation, DIME) 开发,用于简化数据管理和分析过程。本推文是系.转载 2021-09-20 11:45:00 · 895 阅读 · 0 评论 -
Stata数据处理:ietoolkit命令组介绍
全文阅读:https://lianxh.cn/news/c14a547acfbec.html目录1. 背景 2. 内容 3. 举例 4. 相关资料 5. 相关推文 1. 背景ietoolkit软件包是由世界银行发展影响评估部门 (Development Impact Evaluation, DIME) 开发,用于简化数据管理和分析过程。本推文是系列推文中的第一篇,整体介绍ietoolkit命令组。关于命令组中的核心命令,将在后续推文中逐一详细介绍。 2. 内...转载 2021-09-20 11:42:50 · 175 阅读 · 0 评论 -
Stata文本分析:lsemantica-潜在语义分析的文本相似性判别
全文阅读:https://www.lianxh.cn/news/a9ba221282297.html目录1. 潜在语义分析 2. lsemantica 命令 2.1 理论部分 2.2 语法介绍 3. Stata 实例 3.1 英文实例-计算论文标题相似度 3.2 中文实例-计算 MD&A 相似度 4. 相关推文 1. 潜在语义分析在基于词频的文本相似度分析中,主要存在以下问题:同一个词汇在不同的语境中可能有不同的含义,即 “一词多义”; 不转载 2021-09-19 22:43:42 · 738 阅读 · 0 评论 -
Stata:CHFS中国家庭金融调查数据库清洗和处理
全文阅读:Stata:CHFS中国家庭金融调查数据库清洗和处理-D121| 连享会主页目录1. 引言 2. 文档管理 3. 获取数据 4. 数据管理 4.1 数据导入 4.2 数据浏览及变量定义 4.3 删除生成及替代变量 4.4 数据文件的合并 5. 描述性统计 5.1 单变量描述性统计 5.2 (定性—定性)变量描述性统计 5.3 (定性—定量)变量描述性统计 6. 本文小结 7. 附:CHFS_data_dofile.do 8. 参考文献 9转载 2021-09-19 22:39:16 · 9507 阅读 · 0 评论 -
缺失值能否用零代替?
全文阅读:缺失值能否用零代替?-L117| 连享会主页目录1. 引言 2. When no news is zero news, 可替换 3. 缺失值替换为 0 的案例 3.1 Flannery and Rangan (2006, JFE) 3.2 Fama and French (2002, RFS) 3.3 Hausman et al. (1978, Econometrica) 4. Stata 命令:How 批量替换为 0 5. 总结 6. 参考文献 7. 相..转载 2021-09-17 21:55:54 · 4207 阅读 · 0 评论 -
VaR风险价值:Stata及Python实现
原文链接:https://www.lianxh.cn/news/5001362259713.html目录1. VaR 介绍 1.1 VaR 方法提出的背景 1.2 VaR 的定义 1.3 VaR 的公式表示 2. VaR 的计算 2.1 系数计算 2.2 VaR 的度量方式 2.3 风险管理中的应用 3. VaR 的优缺点分析 3.1 VaR 的优点 3.2 VaR 的缺点 4. VaR 的 Python 实现 4.1 数据概况 4.2 历史模转载 2021-08-12 19:01:05 · 2210 阅读 · 0 评论 -
Stata:gen和egen中的sum()函数异同
原文链接:https://www.lianxh.cn/news/75645a7971acc.html目录1. 此求和非彼求和 2. 扩展应用:分组求和 用法1:求取赫芬达尔指数 用法 2:计算累计超额回报率 3. 扩展阅读此求和非彼求和实证分析中,经常需要进行加总计算。Stata 中的generate命令以及更为强大的egen命令都提供了sum()函数。然而,需要特别注意的是,二者的功能有很大的差异。原文链接:https://www.lianxh.cn/n...转载 2021-08-12 18:59:18 · 3767 阅读 · 0 评论 -
Stata:因子变量全攻略
原文链接:https://www.lianxh.cn/news/314564eb6d725.html目录1. 问题背景 2. 什么是因子变量 3. 常用回归模型的因子变量表述 3.1 范例 1:邹氏检验 3.2 范例 2:双向固定效应模型 3.3 范例 3:DID 模型 3.4 范例 4:超越对数生产函数 4. 边际效应分析和图形化呈现 5. 输出回归结果时的问题及解决办法 6. 小结 参考文献原文链接:https://www.lianxh.cn/news/3转载 2021-08-11 22:27:40 · 1468 阅读 · 0 评论 -
ES期望损失:Stata及Python实现
原文链接:https://www.lianxh.cn/news/5e74f7966cf51.html目录1. ES (期望损失) 简介 1.1 引言 1.2 起源与发展 1.3 VaR 的缺陷 1.4 期望损失 ES 2. ES 优点和局限 2.1 ES 的优点 2.2 ES 的局限性 3. ES 模型在金融机构中的应用 4. ES 的 Python 实现 5. ES 的 Stata 实现1. ES (期望损失) 简介1.1 引言在「..转载 2021-08-11 18:48:11 · 1883 阅读 · 0 评论 -
Stata:gen命令中的group()函数的潜在风险
原文链接:https://www.lianxh.cn/news/56d6e46376d31.html目录1. 问题背景 一个小例子 2. 揭秘:group() 函数的工作原理 2.1 同类问题 2.2 小结 3. 解决方法 使用 xtile 命令 1. 问题背景我们经常使用generate(后文简称gen) 命令提供的group()函数对某个变量进行分组,产生分组变量gg,继而基于gg变量进行后续的分组回归分析。例如,在公司金融...转载 2021-08-10 18:20:57 · 3200 阅读 · 0 评论 -
如何处理时间序列中的日期间隔-(with-gaps)-问题?
原文链接:https://www.lianxh.cn/news/49667e8ff8d3a.html编者按:在分析时间序列资料时(如股票收益数据),由于在周末或重要节日里休市,导致日期数据往往是不连续的。若使用 Stata 默认的日期格式,会导致我们无法连续地计算收益率。为此,我们应该做些适当的调整,而不是把这些差距看作是缺失的值。这这篇推文中,作者使用 Stata 的商业日历举例说明了处理不规则间隔的日期一个简便方法。 鉴于原文作者表述清晰,提供了完整的 Stata 数据范例和命令,我们转载 2021-08-08 12:33:38 · 2819 阅读 · 0 评论 -
Stata数据处理:reshape-纵横变换-长宽转换
原文链接:https://www.lianxh.cn/news/c48db52c26ba5.html目录1. 数据横纵转换 2. Stata 命令 reshape 2.1 命令语法 2.2 Stata 实例 2.2.1 问题描述 2.2.2 数据转换 2.2.3 注意事项 1. 数据横纵转换在实证分析之前,我们需要将数据转换成需要的格式,比如从宽型转换为长型,或者反过来。原文链接:https://www.lianxh.cn/news/c48db52c26b转载 2021-08-02 17:38:45 · 8448 阅读 · 0 评论 -
Stata数据处理:面板数据的填充和补漏
原文链接:https://www.lianxh.cn/news/c2febe0f3530a.html问题描述我有一份面板数据,有些年份上的数据有两行或多行记录 (例如,本例中 2007 年的数据)。棘手的是,这两行数据存在差异,且无法判断哪一个记录是正确的。此时,比较稳妥的选择是:将这两汉数据都舍弃,使用相邻年度 (2006 和 2008 年) 的均值作为 2007 年的观察值 (插值)。 解决方法1: 使用 tssmooth ma 命令思路:先删除重复的观察值 (2007 年转载 2021-07-30 10:12:20 · 9735 阅读 · 0 评论