深入探索SAS在数据仓库、数据集市和数据湖中的应用
1. 索引设置
在使用SAS进行数据处理时,排序可能无法满足复杂场景的需求,此时需要考虑在特定变量上设置索引。例如,在 PROC MEANS 代码中,SAS期望数据集已按 BY 变量排序,若不满足此条件,可在运行代码前对数据集按该变量重新排序,但这可能会破坏其他排序顺序,影响 WHERE 子句的使用效率。
索引有助于从大型数据集中提取小部分数据时提升SAS的性能。若提取的数据子集占数据集的比例不超过20%,设置索引通常能提高程序性能;若比例更大,索引可能无效甚至降低性能。
以下是在示例数据集 Chap_1_1_Infile 的 _STATE 变量上创建索引的方法:
- 在数据步中创建简单索引 :
data Chap_1_1_Infile (index=(_STATE));
/* 数据步代码 */
run;
- 使用
PROC DATASETS创建简单索引 :
PROC DATASETS nolist;
modify Chap_1_1_Infile;
index create _STATE;
RUN;
<
超级会员免费看
订阅专栏 解锁全文
46

被折叠的 条评论
为什么被折叠?



