大数据hadoop实时数据接入实现与周期核数

架构

canal实时监控mysql,丢给kafka,flink/spark sink,

datax首次或周期核数。

 

 

 

方案

0、增删改hive内部表

但是性能非常差,启动mr引擎需要2-3s,即使使用hive on spark引擎也需要1-2s启动。不满足实时要求。

 

1、首次全量抽取写textfile文件,创建hive外部表。实时接入append写上面的textfile文件。

 

此时:注意

1)分隔符的选定,尽量不要与数据内容中存在的制表符相同。可以在创建hive外部表的时候,设置转移制表符。

2)实时append写的schema需要与hive对一一匹配。

3)添加rowkey、bd_ts、bd_type、bd_chain四个字段。

4)定时或定量切换文件。由于hdfs具有分片特性,所以不需要实现切换文件。

5)规定好文件存储路径:schema/表名/文件名_后缀。

6)sink任务要实现多线程、分流等优化。

 

实现定时定量写文件功能。设置全局定时定量flush参数、特定定时定量flush参数。

 

 

2、首次全量抽取写textfile文件,创建hive外部表。实时接入创建textfile小文件,并周期合并小文件。

 

注意:

1)规定好文件存储路径:schema/表名/文件名_后缀。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值