大数据系列之----海量数据下是kafka设计和实战演练

最新推荐文章于 2023-03-12 22:08:29 发布

原创最新推荐文章于 2023-03-12 22:08:29 发布 · 661 阅读

·

2

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#大数据 #Kafka

源哥讲互联网技术同时被 2 个专栏收录

58 篇文章 ¥19.90 ¥99.00

订阅专栏

超级会员免费看

大数据、微服务、SaaS、CRM、在线客服、呼叫中心技术

37 篇文章 ¥9.90 ¥99.00

订阅专栏

超级会员免费看

本文基于大量实战经验，探讨了在大数据环境下Kafka的选择与配置问题。Kafka适合批量日志采集和大数据同步，但在某些场景下，RabbitMQ等消息队列可能更稳定。生产者发送方式建议异步以提高性能，acks配置为1或-1取决于数据丢失容忍度，三副本提供较高可靠性。消费者推荐自动提交，但需权衡数据丢失和重复风险。

网上有很多Kafka的文章，但大多写得千篇一律，要么偏理论化，无实战数据参考。要么写了发现的某个问题的解决方案，对于想在实际环境上搭建真实的Kafka环境，参考意义并不大。

这篇文章基于大量的实战经验，在大规模，海量数据，以及实时处理的环境下，这些经验也是在解决Kafka很多真实问题得出的。试图在一开始就协助大家在大家在搭建真实Kafka环境的时候，提前做好最优的解决方案，避免后续不断的出各类问题，然后投入大量人力进行整改。

这篇文章不是给完全的初学者准备的，文章并不会针对索引的细节给出一步步的解决，所以，读者如果对一下基本概念不熟悉的话，建议提前阅读相关文档。

先来解答一下到底是要选择Kafka还是像RabbitMQ、RocketMQ、ActiveMQ等其他消息队列？

首先，在大数据环境下，首选一定是Kafka，批量的日志采集，大量的数据同步等，Kafka的性能极其高。

但是如果企业已经有了Kafka，还需要用RabbitMQ、RocketMQ、ActiveMQ等其他消息队列，还是直接就采用Kafka进行业务消息的处理呢？

那就要看业务的，Kafka经过最近几年发展，可靠性方面已经大幅提升，其可靠性可能并不逊色于RabbitMQ。但是我们也知道，Kafka原先是为了日志而生，而为了提高可靠性，需要进行多种配置，比如说，acks配置为-1，增加副本数

了解本专栏

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。