ETL方法规划与变量服务决策
1. 数据仓库设计中的复杂性
在数据仓库设计过程中,我们面临着一些复杂的情况。从输出数据来看,存在一些值得关注的问题:
- 睡眠时长方面,有三人称每天睡23小时,五人称每天睡24小时,这意味着未展示的部分可能有不少人报告每天睡眠时长在13到22小时之间。这些数据是有效测量值还是错误数据?如果是有效测量值,是否有必要将其纳入数据集?
- 同样,有121名受访者平均每晚仅睡1小时,144人仅睡2小时,还有其他报告睡眠时长异常低的受访者。对于这些数据,我们也需要进行考量。
目前,我们决定在SLEPTIM2中提供SLEPTIM1中所有与睡眠时长相关的值,无论这些值看起来多么可疑,仅在SLEPTIM2中排除代码77和99。同时,我们需要在文档中指出,SLEPTIM2所基于的原始变量已经具有这些分布特征(文档中未进一步解释),由使用仓库数据的分析师来审查SLEPTIM2的分布,并决定在分析时应包含哪些有效值。
2. 变量分析与绘图
我们已经使用PROC UNIVARIATE的数值输出对两个连续的原始变量_AGE80和SLEPTIM1进行了研究,还使用PROC FREQ对SLEPTIM1的分布进行了更深入的了解。在对这两个连续变量做出最终ETL设计决策之前,我们将使用PROC UNIVARIATE的绘图选项来绘制它们的分布图。代码如下:
PROC UNIVARIATE data=X.chap7_1 plot;
var _AGE80 SLEPTIM1;
RUN;
此代码与之前的代码基本相同,只是在第一行代码的分
ETL规划与变量服务决策指南
超级会员免费看
订阅专栏 解锁全文
1285

被折叠的 条评论
为什么被折叠?



