Hadoop之工作流调度

本文介绍了一个综合案例中的工作流调度方案,包括Flume数据采集、数据清洗、表模型MapReduce程序、Hive建表及数据加载、数据分析HQL语句执行及数据导出等步骤,并强调了各部分定时执行的重要性。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

工作流调度

将综合案例123中实现的模块串起来,定时的执行

一、flume数据的采集: flume一直在采集,不需要定时的执行
二、数据的清洗需要定时的执行
三、表模型三个mr的程序

  • 第一个:mr清洗数据
  • 第二个:pageView表模型
  • 第三个:visit表模型

四、Hive建表加载数据: 每天产生的数据,都要定时的加载到Hive的对应的分区表里面去
五、数据的分析的hql语句: 自己开发的hql语句写到脚本里面定时的执行
六、数据的导出: sqoop数据的导出也需要定时执行

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值