大数据平台数据仓库ETL基本思路
ETL工具
开源工具:
Sqoop:Hadoop(hive)和关系型数据库之间传输数据的开源ETL工具。
Beeline:hive客户端工具,基于SQLline的JDBC客户端
Azkaban:任务调度开源工具。
自开发工具:
- 脚本生成工具:jar包,基于系统调研时产生的表级调研文档,自动检索数据源并生成整体ETL工具中拥有较高规范的脚本文件的脚手架:ods层建表语句、sqoop脚本、sync脚本、flow脚本。必要时依据实际情况对脚本进行人工调整。
- 脚本执行工具:python程序,读取参数文件数据并替换脚本中的对应参数,执行脚本。
- SQL执行工具:python程序,读取参数文件数据并替换脚本中的对应参数,执行脚本。
- CTL参数生成工具:python程序,基于TDH