
因为大数据生态的复杂性,对于大数据开发人员来说,要深入其原理并形成体系发挥作用需要花费很多时间,而他们更多的是要聚焦在业务层面进行数据处理。而对于企业来说,要构建一个成熟稳定、功能多样的大数据平台需要花费很多的时间与人力成本。
今天我们就来说说,数据工程师在使用数栈平台时,DAGScheduleX 调度引擎是如何承载数栈开发套件,帮助工程师更加快速地实现开发任务的。
什么是DAGScheduleX
调度引擎:对Task(任务)生成Job(实例)并对Job进行统一调度管理,并提供Job实例基于多个集群不同版本(Hadoop2、Hadoop3、CDH、HDP)多种不同计算引擎的任务调度。
袋鼠云数栈平台有七大开发套件:离线开发、实时开发、算法开发、标签引擎、数据共享服务、数据质量、数据资产,大数据开发人员可以在套件中直接进行业务逻辑的开发,而不用关心底层的大数据平台的架构与实现,将工作的重心更多地聚焦在业务之中。套件中所开发的Task(任务)会对应生成一个可执行的Job(实例),而所有Job(实例)的执行都依赖于DAGScheduleX(调度引擎的简称)。

DAGScheduleX的部署策略
DAGScheduleX在部署策略上有多种选择方案,以满足项目实施时的环境要求:
-
可以区分为Master/Worker角色,Master代表调度、Worker代表执行引擎。Worker部署在计算节点会更加轻量。
-
也可以进行单进程整合部署,部署模式更加简单。
</

本文介绍了DAGScheduleX,一个用于大数据开发的分布式任务调度引擎。DAGScheduleX支持Task到Job的调度管理,具备高并发调度、故障恢复、健康检查等功能。同时,它采用自定义Classloader结合SPI实现计算组件插件化管理,能够统一管理多个集群的不同版本,提供远程调用服务。
最低0.47元/天 解锁文章
236

被折叠的 条评论
为什么被折叠?



