数据仓库数据清洗之码值映射

本文介绍了数据仓库在数据清洗过程中码值映射的策略,包括映射表的设计与生成,如何处理源系统新增码值的自动检查方案,以及码值表的加工方法。重点讨论了映射表的结构优化、SQOOP任务在码值抽取中的应用,以及通过LEFT JOIN查找出源系统新增码值的方法。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

一、映射表F_CM_CODE_MAPPING

1. 源系统码值与目标码值映射关系表结构

不建议将源表码值和目标码值分两个表进行关联,设计建议参考F_CM_CODE_MAPPING


这个有问题,需要增加目标描述字段

 

2. 源系统码值与目标码值映射关系表生成

         2.1 源系统多个码值对应一个目标码值 or 源系统的码值不在码表中保存而在注释中——手工维护映射表。

 

         2.2 源系统码值和目标码值一一对应(目标码值就是源系统码值)——ETL直抽到映射表中。

 

EG:

         SQOOP方案:为减少SQOOP任务将ODS所有码值一起抽取,代码如下。

sqoop import -D mapred.job.queue.name=${queueName} \

--connect ${oracle_connection} \

--username ${oracle_username} \

--password ${oracle_password} \

--query "select \

系统A,\

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值