实时计算框架梳理(flink,kafka,hbase/redis,clickhouse)

最近刚学习完实时计算的框架构建,按照自己的理解梳理了一份框架流程图,如有错误欢迎指正。

框架总图:

先明确一个点,实时计算的关键在于数据生产和消费分离。

在最原始的时候,我们有一张维度数据表,可能存在MySQL中,然后有APP在前端或后端进行数据埋点,并采集行为日志。

行为日志本质上是一个文件,APP在产生日志的时候,为了防止单一过大的文件,会采取按时间间隔滚动或者大小滚动产生的机制,例如log4j有RollingFileAppender或者DailyRollingFileAppender的配置项。对于这样的日志文件,可以使用flume采集走,如果行为日志是存储在服务器集群上的,那么每一台服务器都需要安装flume,flume持续监控行为日志的目录。

一旦监控到有数据产生,进入kafka服务器,并建立一个topic,开始了数据处理。处理这样的数据时,通常使用flink,处理数据是模块化处理的,一个flink任务只会做一件事kafka各分区内开始堆积数据时ÿ

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值