kafka

shade7

已于 2024-06-03 17:22:37 修改

阅读量706

点赞数 1

CC 4.0 BY-SA版权

文章标签： kafka

于 2024-03-27 11:37:59 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/shade7/article/details/137029427

本文探讨了Kafka快速处理数据的关键因素，包括数据分片的副本机制、使用堆外内存的pagecache、自动预热、零拷贝技术以及HDD和SSD的写入优化。同时提到了Kafka在Windows的适应性问题以及与MySQL连接数扩容对服务的影响。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

安装

1.安装jdk：sudo apt-get install openjdk-8-jdk （kafka需要在jvm上运行）

验证安装结果：java -version

2.安装kafka：wget https://downloads.apache.org/kafka/3.5.1/kafka_2.13-3.5.1.tgz （下载官网离线安装包）

解压：tar -xzf ... -C /usr/local (解压到/usr/local目录下)

运行：

在kafka目录下启动zookeeper： bin/zookeeper-server-start.sh config/zookeeper.properties

启动kafka ：bin/kafka-server-start.sh config/server.properties

查看kafka版本：bin/kafka-topics.sh --version

创建topic：bin/kafka-topics.sh --create --bootstrap-server localhost:9092 --topic test --partitions 1 --replication-factor 1

...

kafka为什么快

数据分片（每个topic会把数据切分为多个partition，每个partition有自己对应的副本保证可靠性，但是副本在leader partition down掉前不会提供服务）可以横向扩容

连续读速度快

kafka虽然跑在jvm上但是使用堆外内存（内核缓冲区内存）pagecache，所以不需要做内存回收。

kafka会自动预热，把数据加载到缓冲区里

pagecache：linux内核态缓存

虚拟内存空间：分配给进程的一个逻辑内存空间，通过操作系统的page table(页映射表)对应到物理内存。

kafka的windows适配性不好

kafka ack保证数据写到内存里，刷盘策略决定数据什么时候落盘，所以ack不能保证数据不会丢失。

零拷贝

减少内核态缓冲区到用户态缓冲区的cpu拷贝

dma拷贝：io到内核的拷贝

普通拷贝：

零拷贝：

producer的消息会包含key，来决定消息发送到哪个partition。

producer按批次发送数据，当数据停留指定时间或者数据达到一定量时，发送给kafka 中对应partition的leader 副本所在的broker节点的socket receive buffer；

socket通过network threads将数据包装成一个请求置入reque queue，然后通过一个IO线程写入到page cache，pagecache根据刷盘策略落盘；

为了保证落盘前的数据可靠性，会将数据备份到其他的broker上，（follower副本会向leader副本拉取数据，这些follower在leader 副本 down掉前，只做备份，不会被使用。）

副本备份完毕后，会发送给producer一个ack，其中可以在network threads控制消息的顺序（上一条消息存储失败，则下一条数据卡在socket receive buffer）

HDD（机械硬盘）和SSD的随机写与顺序写

HDD ：随机写时间浪费在寻址和旋转盘片

SSD：写入数据时，需要先擦除一块物理地址，然后写入在这块地址上的一个page里；因此随机写浪费在擦出有用数据时的数据迁移，并且会造成盘碎片化。

混合云

私有云+公有云

私有云：企业自己建设并为内部提供服务，企业可以更严格地控制访问权限和数据管理。

公有云：第三方云厂商所拥有和运营，用户通过互联网使用这些服务；用户只有服务的使用权，数据的控制权相对较弱。

机器扩容超过 mysql连接数导致服务崩溃

博客等级

码龄7年

182
原创

100
点赞

255
收藏

54
粉丝

关注

私信

热门文章

分类专栏

面筋 2篇
笔记 27篇
心得 6篇

上一篇：: kafka常见问题

下一篇：: IM系统

最新评论

go二次学习笔记
优快云-Ada助手: 哇, 你的文章质量真不错，值得学习！不过这么高质量的文章, 还值得进一步提升, 以下的改进点你可以参考下: (1)使用更多的站内链接；(2)提升标题与正文的相关性。
docker学习笔记
优快云-Ada助手: 哇, 你的文章质量真不错，值得学习！不过这么高质量的文章, 还值得进一步提升, 以下的改进点你可以参考下: (1)提升标题与正文的相关性；(2)使用更多的站内链接。
Redis学习笔记
优快云-Ada助手: 哇, 你的文章质量真不错，值得学习！不过这么高质量的文章, 还值得进一步提升, 以下的改进点你可以参考下: (1)提升标题与正文的相关性；(2)使用更多的站内链接。
kafka常见问题
qq_18667185: 我想问一下，在消息堆积的第二种方式中。实际上也是用到线程池，然后只不过是每个线程分别执行一个队列，是这样吗？麻烦答主解答下。
Linux DIR，dirent stat等结构体详解
lakers_ja: 喵啊

大家在看

最新文章

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。