SAS数据仓库ETL管理与策略制定
1. 数组处理与变量命名
在处理数据集时,如果存在多个以特定方式编码的变量,例如代表使用某种药物或治疗原因的问题答案的变量。若要使用数组对这些变量进行重新编码,像RSNMRJN1这样的变量,即便在之前数组处理中已被重命名为mar3,也可能需要再次重命名,以便在数据步的数组命令中更方便地指定变量名范围。不过,这种为了数组处理效率而进行的重命名操作,其付出的努力可能并不值得。
在设计SAS变量名时,需要考虑数组的这一特性。对于编码方式相似的变量组,采用能用于数组范围的命名方式,如诊断变量DIAG1到DIAG20,是一种好的做法。但在管理包含多年数据、同一变量存在多个版本的仓库时,设置命名约定可能需要优先考虑其他因素,而非仅仅为了方便数组处理。
2. 变量命名约定
在数据仓库中为SAS变量制定命名约定时,了解SAS应用程序如何识别命名项很有必要。SAS名称指用户为应用程序中的元素(如变量和数据集)所取的名称,或者SAS为其自身元素所赋予的名称。可拥有SAS名称的元素包括变量、SAS数据集、格式、PROCs和数组等。
所有SAS名称都需遵循以下规则:
- 名称长度:大多数SAS名称的最大长度为32个字符,部分格式名称最大为8个字符,变量标签最大为256个字符。
- 首字符:必须是字母或下划线,不能以数字开头。
- 空格与特殊字符:不能包含空格,通常用下划线代替;除下划线外,不能使用其他特殊字符。
- 保留名称:SAS保留了一些名称,用户不能使用,如“work”用于WORK目录。
3. SAS与SQL变量传统命名约定对比
早期S
超级会员免费看
订阅专栏 解锁全文
47

被折叠的 条评论
为什么被折叠?



