Elastic-Job 介绍

Elastic-Job是一种分布式调度解决方案,用于解决大数据量处理时的定时任务分片问题。通过将任务分发到不同的机器上,每台机器处理特定的数据分片,实现并行处理。本文介绍了Elastic-Job的基本概念、实例代码及如何利用Zookeeper进行任务分片。

Elastic-Job是一个分布式调度解决方案,它解决了什么问题呢?

如果你需要定时对数据进行处理,但由于数据量实在太大了,一台机器处理不过来,于是用两台机器处理,第一台处理 id 为奇数的数据,第二台处理 id 为偶数的数据,elastic job 可以优雅地对任务进行分片,拿到分片的机器才能执行定时任务。

概念:instance,sharding,leader

1. 定时任务程序是 instance。

public class MyElasticJob implements SimpleJob {

    public void execute(ShardingContext sc) {
        System.out.println(sc.getShardingItem()); // 0, 1
        System.out.println(sc.getShardingParameter()); // A, B
        System.out.println(sc.getShardingTotalCount()); // 2 
        if (0 == sc.getShardingItem()) {
            System.out.println("hello yinyinyin!");
            // 处理 id 为偶数的数据
        } else if (1 == sc.getShardingItem()) {
            System.out.println("hello yanyanyan!");
            // 处理 id 为奇数的数据
        } 
    }
}

2. elastic job 依赖 zk 对任务进行分片:

<?xml version="1.0" encoding="UTF-8"?>
<beans xmlns="http://www.springframework.org/schema/beans"
    xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
    xmlns:reg="http://www.dangdang.com/schema/ddframe/reg"
    xmlns:job="http://www.dangdang.com/schema/ddframe/job"
    xsi:schemaLocation="http://www.springframework.org/schema/beans
                        http://www.springframework.org/schema/beans/spring-beans.xsd
                        http://www.dangdang.com/schema/ddframe/reg
                        http://www.dangdang.com/schema/ddframe/reg/reg.xsd
                        http://www.dangdang.com/schema/ddframe/job
                        http://www.dangdang.com/schema/ddframe/job/job.xsd">
    <!--配置作业注册中心 -->
    <reg:zookeeper id="regCenter" server-lists="127.0.0.1:2181" 
        namespace="dd-job" base-sleep-time-milliseconds="1000" 
        max-sleep-time-milliseconds="3000" max-retries="3" />
    <!-- 配置作业A-->
       <job:simple id="myElasticJob" class="util.MyElasticJob" 
           registry-center-ref="regCenter" cron="0 0/1 * * * ?" overwrite="true"
           sharding-total-count="2" sharding-item-parameters="0=A,1=B" />
</beans>

 zk 中定时任务的视图:

在 192.168.40.8  和 192.168.40.1 上分别有定时任务程序,定时任务有 2 个分片, 1 和 0。先注册到 zk 的 instance 是 leader,它负责对任务进行分片。leader/election 的 instance 节点是瞬时的,它记录了 leader 的信息。

如果是 leader 下线,会触发 leader 重新选举,如果有机器下线,会触发定时任务的重新分片。

转载于:https://www.cnblogs.com/allenwas3/p/7568487.html

多源数据接入 支持校园各业务系统数据接入:包括教务系统(学生成绩、课程信息)、学工系统(奖惩记录、资助信息)、后勤系统(宿舍分配、能耗数据)、图书馆系统(借阅记录、馆藏信息)、一卡通系统(消费数据、门禁记录)等。 接入方式:提供数据库直连(MySQL、SQL Server)、文件导入(CSV、Excel、JSON)、API 接口调用等多种方式,支持实时同步与定时批量同步。 数据标准化与治理 建立校园数据标准体系:统一数据格式(如日期格式、学号编码规则)、定义核心数据元(如 “学生” 包含学号、姓名、专业等必选字段)、规范代码集(如性别代码 “1 - 男,2 - 女”)。 数据清洗:自动检测并处理缺失值、重复值、异常值(如成绩 > 100 分),通过规则引擎实现数据校验(如 “学生年龄需在 16-30 岁之间”)。 元数据管理:记录数据来源、格式、更新频率、负责人等信息,生成数据血缘图谱,追踪数据从产生到应用的全生命周期。 二、数据共享与交换核心功能 分布式数据存储 基于 Hadoop HDFS 实现海量数据存储:结构化数据(成绩、消费记录)存入 HBase,非结构化数据(文档、图片、视频)直接存储于 HDFS,日志类数据通过 Flume 采集至 HDFS。 支持数据分片与副本机制,确保数据高可用(默认 3 副本存储),满足校园 PB 级数据存储需求。 数据交换引擎 构建点对点数据交换通道:各部门系统可通过交换引擎向平台上传数据或申请获取授权数据,支持同步 / 异步交换模式。 交换流程管理:定义数据交换规则(如 “学工系统每日向平台同步新增学生信息”),记录交换日志(成功 / 失败状态、数据量),失败时自动重试。 数据脱敏:对敏感数据(如身份证号、银行卡号)在交换过程中进行脱敏处理(如显示 “110********5678”),兼顾共享与隐私保护。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值