ETL介绍

ETL介绍

1.数据来源:
            用户行为数据
            业务数据
            数据采集(爬虫)
            日志文件
2.处理
数据抽取:把不同的数据源数据抓取过来,存到某个地方
数据清洗:过滤那些不符合要求的数据或者修正数据之后再进行抽取
不完整的数据:比如数据里一些应该有的信息缺失,需要补全后再写入数据仓库
错误的数据:比如字符串数据后面有一个回车操作、日期格式不正确、日期越界等,需要修正之后再抽取
重复的数据:重复数据记录的所有字段,需要去重
数据转换:不一致的数据转换,比如同一个供应商在结算系统的编码是yy0001,而在CRM中编码是XX0001,统一编

3.实现有多种方法:
(1)借助ETL工具(如Oracle的OWB、SQL Server的DTS、SQL Server的SSIS服务、Informatic等等)实现
(2)SQL方式实现(SQL的方法优点是灵活,提高ETL运行效率,但是编码复杂,对技术要求比较高。)
(3)ETL工具和SQL相结合(借助工具可以快速的建立起ETL工程,屏蔽了复杂的编码任务,提高了速度,降低了难度,但是缺少灵活性。)


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值