ETL介绍
1.数据来源:
用户行为数据
业务数据
数据采集(爬虫)
日志文件
2.处理
数据抽取:把不同的数据源数据抓取过来,存到某个地方
数据清洗:过滤那些不符合要求的数据或者修正数据之后再进行抽取
不完整的数据:比如数据里一些应该有的信息缺失,需要补全后再写入数据仓库
错误的数据:比如字符串数据后面有一个回车操作、日期格式不正确、日期越界等,需要修正之后再抽取
重复的数据:重复数据记录的所有字段,需要去重
数据转换:不一致的数据转换,比如同一个供应商在结算系统的编码是yy0001,而在CRM中编码是XX0001,统一编
数据清洗:过滤那些不符合要求的数据或者修正数据之后再进行抽取
不完整的数据:比如数据里一些应该有的信息缺失,需要补全后再写入数据仓库
错误的数据:比如字符串数据后面有一个回车操作、日期格式不正确、日期越界等,需要修正之后再抽取
重复的数据:重复数据记录的所有字段,需要去重
数据转换:不一致的数据转换,比如同一个供应商在结算系统的编码是yy0001,而在CRM中编码是XX0001,统一编
3.实现有多种方法:
(1)借助ETL工具(如Oracle的OWB、SQL Server的DTS、SQL Server的SSIS服务、Informatic等等)实现
(2)SQL方式实现(SQL的方法优点是灵活,提高ETL运行效率,但是编码复杂,对技术要求比较高。)
(3)ETL工具和SQL相结合(借助工具可以快速的建立起ETL工程,屏蔽了复杂的编码任务,提高了速度,降低了难度,但是缺少灵活性。)
(2)SQL方式实现(SQL的方法优点是灵活,提高ETL运行效率,但是编码复杂,对技术要求比较高。)
(3)ETL工具和SQL相结合(借助工具可以快速的建立起ETL工程,屏蔽了复杂的编码任务,提高了速度,降低了难度,但是缺少灵活性。)