Kafka basic intro

本文介绍Kafka如何简化数据集成过程。Kafka通过统一管理来自不同数据源的实时数据流,如用户行为、系统日志等,实现了高效的数据处理与传输。它采用分布式的日志系统,提供了一个强大的消息队列服务。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

Refrence:https://zhuanlan.zhihu.com/p/20772147?refer=bittiger

Mingche Su · 21 天前

查看完整视频:http://www.bittiger.io/classes

数据集成超麻烦,你往往会发现你用在收集整理数据的时间是最多的,像这样: 


数据有两种:一种是数据库数据,比如用户、产品等关系型数据;另一种是实时的数据,比如数据(包括用户点击、浏览等),应用数据(包括CPU的使用等)和log。

如果不同的数据用不同的数据库来存储监控,不同应用要从不同的地方取得需要的数据,就会这样(炸了):

所以Kafka出现了,把数据集成这个环节做的简洁高效,像这样:Kafka把这个过程抽象了一下变成了这样(眼熟不眼熟,就是生产者消费者模型呀):

Kafka最核心的是log,什么是log呢,log就是记录什么时间发生了什么事。当log很多就要做成分布式,对log分区,每个partition是独立的、不交互的,这样避免了partition之间的协调,非常高效。像这样:工作流程就是数据源(生产者)将数据写入log,消费者从log中提取数据,log起到了一个消息队列的作用。所以Kafka就是一个基于分布式log实现的,具有发布/订阅功能的消息系统。

因为Kafka用log记下了所有时间发生的所有事,任何一个状态都可以被恢复出来。Kafka的理念就是实时处理就是log加计算(Job),像这样:

本文整理作者:Mengying Tian,查看完整视频:http://www.bittiger.io/classes

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值