使用 SAS 数组实现编码标准化
变量重命名的利弊
变量重命名不仅会带来处理成本,还会增加人脑理解变量的难度。例如,中风(CVDSTRK3)和心脏病(CVDCRHD4)的原始变量名并不直观,但我们仍可从变量名中的字符提示来记忆其含义。用数字重命名变量会降低变量命名的直观性,这看似微不足道,却会给本就复杂的数据仓库管理过程增添不必要的混乱。因此,在重命名变量时,我们需要权衡其利弊,既要考虑提高数据处理效率,也要考虑维护和管理数据仓库的操作。
数组处理中的条件和索引变量
在 SAS 数据仓库的 ETL 过程中,数组处理是常用的操作。下面将详细介绍如何在数组处理中添加条件、创建索引变量,以及如何对数组处理进行文档记录和标准化。
添加条件到数组处理
之前,我们将 11 个共病变量作为输入数组,并生成了一组 11 个标志作为输出数组。尽管 DIABETE3 变量的编码与其他输入变量略有不同,但创建标志的数据步骤是基于所有 11 个变量的共同编码,即 1 表示“是”。现在,我们想创建一个新的分组变量,将编码为 7、9 和缺失值的共病合并为一个表示“未知”的编码 9。因此,新的分组变量编码为:1 = 是,2 = 否,其他 = 9。
然而,DIABETE3 无法采用这种新的编码系统。DIABETE3 有两个不同的“是”的答案,分别编码为 1 和 2,不能合并;还有两个不同的“否”的答案,分别编码为 3 和 4,也不能合并。但与其他共病变量一样,我们希望在 DIABETE3 的分组变量中,将 7、9 和缺失值合并为编码 9。
以下是实现该功能的 SAS 代码:
超级会员免费看
订阅专栏 解锁全文
265

被折叠的 条评论
为什么被折叠?



