STATA 批量重命名，数据查重，行列转换，类型转换，变量截取和生成，数据库合并等命令

最新推荐文章于 2025-07-16 18:02:36 发布

LandH的Blog

最新推荐文章于 2025-07-16 18:02:36 发布

阅读量2.7w

点赞数 5

CC 4.0 BY-SA版权

分类专栏： Stata学习文章标签： stata 常用命令

本文链接：https://blog.youkuaiyun.com/u013084616/article/details/17261289

Stata学习专栏收录该内容

10 篇文章

订阅专栏

本文概述了数据处理过程中的关键步骤，包括变量批量重命名、检查重复数据、数据横纵向转换、数据类型转换、截取生成新变量、计算生成新变量、数据库合并、计算变量记录数等操作。此外，还介绍了数据处理中的重要概念，如数据类型转换、数据类型检查、数据合并方法等。通过实例展示了如何使用这些技术进行高效的数据分析。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

一、变量批量重命名：

比如将一批变量的 a_2 b_2 c_2 d_2 e_2的后缀改为w

ren (*_2) (*w)

二、检查重复数据常用命令：

duplicates report x //报告x变量有无重复

duplicates list x //列出重复的记录

bys x: gen cn=_N

browse if cn>1

drop cn //浏览具体的重复值，以便下一步分析和处理

duplicates drop x //删除重复值，保留重复值的第一条记录

三、数据横纵向转换：
           long
        +------------+                                   wide
        | i j stub |                           +----------------+
        |------------|                          | i stub1 stub2 |
        | 1 1   4.1 |     reshape      |----------------|
        | 1 2   4.5 |   <--------->     | 1    4.1   4.5 |
        | 2 1   3.3 |                          | 2    3.3   3.0 |
        | 2 2   3.0 |                           +----------------+
        +------------+

reshape之前要检查j,stub有无重复记录，有重复无法reshape。

纵向转成横向——如果J里面是汉字的话首先要将变量重新命名为英文字母（rt）或者数字的才可以打横后当做变量名：

gen rt="BP" if j=="血压"

replace rt="height" if j=="身高"

reshape wide 所有同一个i对应不一致的变量，i() j() string //如果j是string，后面要加string 标记

横向转成纵向——要把横向数据命名为 stub1 stub2等比较整齐的名称，生成一个新的J变量。

reshape long stub, i( ) j(新变量名)

四、数据类型转换： destring, replace force

tostring, replace force

五、截取生成新变量：例如血压（BP）130/85截取为高压（SBP）和低压（DBP）

gen sbp=real(substr(bp,1,3))

gen dbp=real(substr(bp,-2,2))