pyhthon 大数据项目流程中的任务调度和业务介绍_python可视化工作流调度-优快云博客

本文链接：https://blog.youkuaiyun.com/m0_62008384/article/details/138448712

一、ZooKeeper （对上一章进行补充）

运行机制

第一阶段启动服务，进行领导者选举

所有机器通过一个选择过程来选出一台被称为领导者(leader)的机器，其他的机器被称为跟随者(follower)。一旦半数以上(或指定数量)的跟随者已经将其状态与领导者同步，则表明这个阶段已经完成

第二阶段原子广播进行数据读写

所有的写请求都会被转发给领导者，再由领导者将更新广播给跟随者。当半数以上的跟随者已经将修改持久化之后，领导者才会提交这个更新，然后客户端才会收到一个更新成功的响应。这个用来达成共识的协议被设计成具有原子性，因此每个修改要么成功要么失败。

如果领导者出现故障，其余的机器会选出另外一个领导者，并和新的领导者一起继续提供服务。随后，如果之前的领导者恢复正常，会成为一个跟随者。领导者选举的过程是非常快的，

读取数据时，不需要转发给leader，直接读取连接的zk服务上的数据

一致性

一个跟随者可能滞后于领导者几个更新。这也表明在一个修改被提交之前，只需要集合中半数以上机器已经将该修改持久化则认为更新完成

对 ZooKeeper 来说，理想的情况就是将客户端都连接到与领导者状态一致的服务器上

zk能保证数据的最终一致性

所有的zk服务中的数据要么全部更新成功，要么全部更新失败

应用场景

zk主要解决服务单点故障问题，实现服务的高可用

namenode resourcemanager

二、DolphinScheduler介绍（使用DolphinScheduler进行导出）

官网 https://dolphinscheduler.apache.org/zh-cn

Apache DolphinScheduler 是一个分布式易扩展的可视化DAG工作流任务调度开源系统。适用于企业级场景，提供了一个可视化操作任务、工作流和全生命周期数据处理过程的解决方案。

Apache DolphinScheduler 旨在解决复杂的大数据任务依赖关系，并为应用程序提供数据和各种 OPS 编排中的关系。解决数据研发ETL依赖错综复杂，无法监控任务健康状态的问题。 DolphinScheduler 以 DAG（Directed Acyclic Graph，DAG）流式方式组装任务，可以

及时监控任务的执行状态，支持重试、指定节点恢复失败、暂停、恢复、终止任务等操作。

对大数据数仓中每天产生的数据定时执行数据的处理操作

架构

架构说明

**MasterServer**

MasterServer采用分布式无中心设计理念，MasterServer主要负责 DAG 任务切分、任务提交监控，并同时监听其它MasterServer和WorkerServer的健康状态。 MasterServer服务启动时向Zookeeper注册临时节点，通过监听Zookeeper临时节点变化来进行容错处理。 MasterServer基于netty提供监听服务。

该服务内主要包含:

DistributedQuartz分布式调度组件，主要负责定时任务的启停操作，当quartz调起任务后，Master内部会有线程池具体负责处理任务的后续操作；
- MasterSchedulerService是一个扫描线程，定时扫描数据库中的t_ds_command表，根据不同的命令类型进行不同的业务操作；
- WorkflowExecuteRunnable主要是负责DAG任务切分、任务提交监控、各种不同事件类型的逻辑处理；
- TaskExecuteRunnable主要负责任务的处理和持久化，并生成任务事件提交到工作流的事件队列；
- EventExecuteService主要负责工作流实例的事件队列的轮询；
- StateWheelExecuteThread主要负责工作流和任务超时、任务重试、任务依赖的轮询，并生成对应的工作流或任务事件提交到工作流的事件队列；
- FailoverExecuteThread主要负责Master容错和Worker容错的相关逻辑；
WorkerServer
WorkerServer也采用分布式无中心设计理念，WorkerServer主要负责任务的执行和提供日志服务。 WorkerServer服务启动时向Zookeeper注册临时节点，并维持心跳。 WorkerServer基于netty提供监听服务。

该服务包含：
- WorkerManagerThread主要负责任务队列的提交，不断从任务队列中领取任务，提交到线程池处理；
- TaskExecuteThread主要负责任务执行的流程，根据不同的任务类型进行任务的实际处理；
- RetryReportTaskStatusThread主要负责定时轮询向Master汇报任务的状态，直到Master回复状态的ack，避免任务状态丢失；
ZooKeeper

ZooKeeper服务，系统中的MasterServer和WorkerServer节点都通过ZooKeeper来进行集群管理和容错。另外系统还基于ZooKeeper进行事件监听和分布式锁。我们也曾经基于Redis实现过队列，不过我们希望DolphinScheduler依赖到的组件尽量地少，所以最后还是去掉了Redis实现。
AlertServer

提供告警服务，通过告警插件的方式实现丰富的告警手段。
ApiServer

API接口层，主要负责处理前端UI层的请求。该服务统一提供RESTful api向外部提供请求服务。
UI

系统的前端页面，提供系统的各种可视化操作界面。

三、DolphinScheduler启动访问

# 启动
sh /export/server/dolphinscheduler/bin/start-all.sh
# 停止
sh /export/server/dolphinscheduler/bin/stop-all.sh

访问web页面：http://IP地址加端口号/dolphinscheduler/ui/view/login/index.html

四、DolphinScheduler使用

创建队列

队列是在执行 spark、mapreduce 等程序，需要用到“队列”参数时使用的。
管理员进入安全中心 -> 队列管理页面，点击“创建队列”按钮，创建队列。

添加租户

租户对应的是 Linux 的用户，用于 worker 提交作业所使用的用户。如果 linux 没有这个用户，则会导致任务运行失败。你可以通过修改 worker.properties 配置文件中参数 worker.tenant.auto.create=true 实现当 linux 用户不存在时自动创建该用户。worker.tenant.auto.create=true 参数会要求 worker 可以免密运行 sudo 命令
租户编码：租户编码是 Linux上的用户，唯一，不能重复
管理员进入安全中心->租户管理页面，点击“创建租户”按钮，创建租户。

注意：目前仅有 admin 用户可以修改租户。

I-创建项目

II-工作流定义等等

具体操作需要去查询一下

一般是用来导出数据

也可以和datax一样但是建议使用datax

五、部署DIM层的维度表

1.首先需要创建项目

2.资源中心上传sql文件

3. 定义工作流

dim层数据导出postgresql

上传json文件

定义工作流

p="dt=`date -d '-4 day' +'%Y-%m-%d'`"
python /export/server/datax/bin/datax.py -p "-Dpartition=$p" dimtopg.json （筛选出日期）

六、指标分类介绍

指标就是最终要计算的数据内容

原子指标
- 原子指标基于某一业务过程的度量值，是业务定义中不可再拆解的指标，原子指标的核心功能就是对指标的聚合逻辑进
  
  行了定义
- 比如销售额销量
- select sum(sale_price) from tb;
派生指标
- 派生指标基于原子指标，在原子指标的基础上加了各种限定(维度)
- 比如每月销售额每月每个店铺的销售额
- select month,sum(sale_price) from tb group month
衍生指标
- 衍生指标是在一个或多个派生指标的基础上，通过各种逻辑运算复合而成的
- 比如每月销售的环比增长，每个品类销售额占比