数据采集之业务数据采集整理

本文介绍了一种从MySQL同步数据到HDFS的方法,包括全量数据与增量数据两种模式。全量数据通过DataX导入HDFS;增量数据利用Maxwell监控MySQL变更,经由Kafka传递,再通过包含自定义时间戳拦截器的Flume组件写入HDFS。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

业务数据存储在mysql中,分为增量表和全量表,此项目中有一台在hadoop102下的mysql
存储全量和增量业务数据。

1.全量数据

全量数据使用datax存进hdfs中

2.增量数据

增量数据使用maxwell+flume传输到hdfs中
首次使用,需要进行全量同步,可以使用maxwell-bootstrap脚本
(1)maxwell(可以实时的监控mysql)
(2)kafka
(3)flume组件为
自定义时间戳拦截器
kafkaSource
filechannel
hdfsSink
在这里插入图片描述
增量表同步,需要在首日进行一次全量同步,后续每日才是增量同步。首日进行全量同步时,需先启动数据通道,包括Maxwell、Kafka、Flume,然后执行增量表首日同步脚本mysql_to_kafka_inc_init.sh进行同步。后续每日只需保证采集通道正常运行即可,Maxwell便会实时将变动数据发往Kafka。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值