
Kafka
文章平均质量分 53
消息引擎、实时处理平台
大数据技术架构
Focus on Lakehouse
展开
-
不再需要ZooKeeper,Kafka 2.8将独立运行!
分布式发布与订阅系统Apache Kafka在即将发布的2.8版本,使用Kafka内部的Quorum控制器来取代ZooKeeper,因此用户第一次可在完全不需要ZooKeeper的情况下执...转载 2021-04-11 22:44:17 · 267 阅读 · 0 评论 -
Kafka的存储机制以及可靠性
一、Kafka的存储机制kafka通过topic来分主题存放数据,主题内有分区,分区可以有多个副本,分区的内部还细分为若干个segment。所谓的分区其实就是在kafka对应存储目录下创...转载 2020-06-29 17:25:13 · 235 阅读 · 0 评论 -
干货 | Kafka 内核知识梳理,附思维导图
前面我们已经分享过几篇Kafka的文章,最近简单梳理了下Kafka内核相关的知识,涵盖了Kafka架构总结,副本机制,控制器,高水位机制,日志或消息存储,消息发送与消费机制等方面知识。文...原创 2020-05-24 13:57:49 · 740 阅读 · 0 评论 -
kafka篇-设计思路
戳蓝字“大数据手稿笔记”关注我们哦!本文转自 lecury 的博客:https://blog.lecury.cn1. 设计背景许多互联网公司,每天都会产生大量的日志数据,...转载 2019-08-03 10:29:38 · 238 阅读 · 0 评论 -
Kafka 是如何保证数据可靠性和一致性
学过大数据的同学应该都知道Kafka,它是分布式消息订阅系统,有非常好的横向扩展性,可实时存储海量数据,是流数据处理中间件的事实标准。本文将介绍Kafka是如何保证...转载 2019-06-18 09:40:10 · 413 阅读 · 0 评论 -
Kafka是如何利用零拷贝提高性能的
Kafka 在执行消息的写入和读取这么快的原因,其中的一个原因是零拷贝(Zero-copy)技术,下面我们来了解一下这么高效的原因。传统的文件读写传统的文件读写或者网络传输,通常需要将数...转载 2020-04-26 21:07:01 · 427 阅读 · 0 评论 -
Kafka精进 | Producer端核心参数及调优建议
前言在前面文章《Kafka精进 | 一文读懂Producer消息发送机制》中,我们从Kafka消息结构、序列化器、分区器及消息缓冲池等方面介绍了Producer端的原理,回顾示意图如下:...原创 2020-04-22 08:29:00 · 496 阅读 · 0 评论 -
Kafka精进 | 一文读懂Producer消息发送机制
前面我们总结了broker端的核心参数,一些服务端原理细节后面文章再聊。本文我们重点讨论Producer端的消息发送机制,希望通过本文我们能整体掌握Producer端的原理。1、Pro...原创 2020-04-13 08:22:57 · 698 阅读 · 0 评论 -
Kafka精进 | Broker服务端核心参数解析
一、Kafka概述关于Kafka,我们在之前的文章里也介绍,简而言之Kafka是一个分布式消息引擎与流处理平台,经常用做企业的消息总线、实时数据管道,有时还可以当做存储系统来用。基本架...原创 2020-04-09 07:51:56 · 533 阅读 · 0 评论 -
如何快速全面掌握Kafka?5000字吐血整理
Kafka 是目前主流的分布式消息引擎及流处理平台,经常用做企业的消息总线、实时数据管道,本文挑选了 Kafka 的几个核心话题,帮助大家快速掌握 Kafka,包括:Kafka 体系架构...原创 2020-02-26 15:58:56 · 673 阅读 · 0 评论 -
Apache Kafka 版本演进及特性介绍
前段时间有一个同事问到:Kafka 0.8.2 只能使用Zookeeper连接吗?虽然仍有一部分Kafka的老用户在使用 0.8.x 版本,但 Kafka 0.8.x 确实是比较老的版本...原创 2020-02-17 21:30:44 · 1030 阅读 · 0 评论 -
Kafka 的 20 项最佳优化实践
Apache Kafka是一款流行的分布式数据流平台,本文介绍Kafka大规模生产实践下的 20 项最佳优化。翻译 2019-07-10 22:29:26 · 1065 阅读 · 0 评论 -
一文读懂 Kafka 事务机制
这篇文章主要讲述 Kafka 事务性相关原理,从 Kafka EOS 语义、幂等性、事务性等几个方面阐述。原创 2019-06-05 09:09:35 · 1962 阅读 · 0 评论 -
基于磁盘的Kafka为什么这么快
Kafka是大数据领域无处不在的消息中间件,目前广泛使用在企业内部的实时数据管道,并帮助企业构建自己的流计算应用程序。Kafka虽然是基于磁盘做的数据存储,但却具有高性能、高吞吐、低延时的特点,其吞吐量动辄几万、几十上百万,这其中的原由值得我们一探究竟。原创 2019-05-23 18:18:11 · 775 阅读 · 0 评论