大数据开发:从数据生命周期管理到开发简化
1. 数据生命周期管理与Oozie的应用
在数据处理领域,数据生命周期管理是一个至关重要的概念。它涵盖了一系列在处理大规模数据时变得尤为重要的问题和技术。而Oozie作为一个专注于Hadoop的工作流管理器,在数据生命周期管理中发挥着关键作用。
1.1 Oozie的其他触发器
Oozie除了可以在指定时间范围内定期启动工作流外,还具备数据集触发功能。它能根据新数据的可用性来触发工作流。例如,假设外部系统持续将新的推文文件推送到HDFS,Oozie可以配置为根据目录模式查找新数据,或者当HDFS上出现准备好的文件时触发。这种配置为集成MapReduce作业的输出提供了便利机制,因为MapReduce作业默认会在其输出目录中写入一个 _SUCCESS 文件。
1.2 构建复杂工作流
为了实现数据生命周期管理,可以使用Oozie构建一系列复杂的工作流。具体步骤如下:
1. 明确职责并遵循设计原则 :将系统的不同部分按照良好的设计和关注点分离原则进行实现,最终得到多个不同的工作流。
- 环境配置子工作流 :确保环境(主要是HDFS和Hive元数据)正确配置。
- 数据验证子工作流 :执行数据验证。
- 主工作流 :触发上述两个子工作流,然后通过多步骤摄取管道拉取新数据。
- 第一个协调器 :每10分钟执行一次上述工作流。
-
大数据开发:数据管理与Hadoop开发简化
超级会员免费看
订阅专栏 解锁全文
1680

被折叠的 条评论
为什么被折叠?



