24、ETL方法规划与变量服务决策

ETL规划与变量服务决策指南

ETL方法规划与变量服务决策

1. 数据仓库设计中的复杂性

在数据仓库设计过程中,我们面临着一些复杂的情况。从输出数据来看,存在一些值得关注的问题:
- 睡眠时长方面,有三人称每天睡23小时,五人称每天睡24小时,这意味着未展示的部分可能有不少人报告每天睡眠时长在13到22小时之间。这些数据是有效测量值还是错误数据?如果是有效测量值,是否有必要将其纳入数据集?
- 同样,有121名受访者平均每晚仅睡1小时,144人仅睡2小时,还有其他报告睡眠时长异常低的受访者。对于这些数据,我们也需要进行考量。

目前,我们决定在SLEPTIM2中提供SLEPTIM1中所有与睡眠时长相关的值,无论这些值看起来多么可疑,仅在SLEPTIM2中排除代码77和99。同时,我们需要在文档中指出,SLEPTIM2所基于的原始变量已经具有这些分布特征(文档中未进一步解释),由使用仓库数据的分析师来审查SLEPTIM2的分布,并决定在分析时应包含哪些有效值。

2. 变量分析与绘图

我们已经使用PROC UNIVARIATE的数值输出对两个连续的原始变量_AGE80和SLEPTIM1进行了研究,还使用PROC FREQ对SLEPTIM1的分布进行了更深入的了解。在对这两个连续变量做出最终ETL设计决策之前,我们将使用PROC UNIVARIATE的绘图选项来绘制它们的分布图。代码如下:

PROC UNIVARIATE data=X.chap7_1 plot;
var _AGE80 SLEPTIM1;
RUN;

此代码与之前的代码基本相同,只是在第一行代码的分

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值