大数据项目流程中的思路

1- 需要先从元数据中导入mysql

2- 通过datax 把 mysql中的元数据导入hive中  (ODS层)

3- 导入ODS层中需要对数据进行了解并且分析

如果最后的需求有多样性需要通过多层DM层进行筛选

可以通过编写文档例如

 

要思路保持清晰。

4- DM层分层

  • 目标:实现对数据清洗后的数据按照需求进行对应主题的加工处理分析

  • 内容

    • HiveSQL、PrestoSQL:使用SQL对每个主题每一层的数据进行转换处理,加工得到应用层结果

    • SQL脚本:将HiveSQL封装在SQL脚本中

  • 产出:数据分析脚本:SQL

  • 注意:不限制脚本个数

第4和5 就是每个分层的开发过程

创建一个主题目录

DWD层 创建一个DWD层目录保存DWD的hiveSQL代码文件

DWS层 创建一个DWS层目录保存DWS的hiveSQL代码文件

5-数据导出

  • 目标:将Hive应用层的数据使用Sqoop同步导出到MySQL中,用于构建报表

  • 内容

    • datax程序:开发datax程序实现将Hive数据导出到MySQL

    • json脚本:将sqoop程序封装在json脚本中

  • 产出:数据导出脚本:json

6-调度脚本(可选)

  • 目标:将整个主题中所有脚本进行调试,封装成任务流调度脚本,实现任务流调度

  • 内容

    • 调度脚本:列举需要调度的所有脚本及SQL文件的内容

    • 任务流调度:使用DS实现构建任务流以及运行任务流

  • 产出:《XXXX主题任务流调度交付文档.md》

7- 数据报表(可选)

  • 目标:对需要做报表的主题,利用FineBI构建报表

  • 内容

    • 主题报表:按照需求构建主题分析报表

  • 产出:《XXXX主题数据报表交付文档.md》

8- 项目最终产出

  • 01.项目任务明细

    • 组长每日记录组员完成进度情况

  • 02.每日开发产出

    • 需求分析文档

    • 建模设计文档

    • 数据同步脚本

    • 数据清洗脚本

    • 数据分析脚本

    • 数据导出脚本

    • 任务调度文档(可选)

    • 数据报表文档

  • 03.每日会议纪要

    • 每组成员每天轮流做会议纪要

  • 04.每日工作汇报

    • 所有同学每日都要发送日报给组长,组长保留所有日报

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值