kafka streaming流数据处理遇到的问题实战总结系列【持续更新】

原创已于 2023-08-20 07:02:32 修改 · 1k 阅读

·

2

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#kafka #streaming #流处理 #坑

于 2019-02-20 07:08:37 首次发布

大数据同时被 2 个专栏收录

50 篇文章

订阅专栏

流数据处理#大数据

8 篇文章

订阅专栏

本文探讨了流数据处理方案的选型策略，包括MQ、流数据处理引擎及数据库的选择，重点分析Kafka的偏移量提交方式、offset存储方式及参数调优。同时，深入讨论Spark Streaming的消费速率控制、参数调优、任务稳定运行及内存占用问题。

方案设计

如何结合业务要求对流数据处理方案进行选型（mq选型，流数据处理引擎选型，数据库选型。。）
数据丢失的可能性分析
怎么实现数据精准一致性exactly-once
lamda架构的实现

mq

kafka偏移量两种提交方式，三种auto.offset.reset方式的含义和演示（包含代码）
kafka offset的三种存储方式（hbase,zookeeper,kafka自身）
如何删除kafka话题数据
mq参数如何调优
生产mq参数如何配置
如何压测kafka集群性能

流数据引擎

kafka与streaming数据对接
流处理Spark Streaming如何动态控制消费速率
流处理Spark Streaming如何调优batch interval参数
流处理Spark Streaming如何调优gc参数
流处理Spark Streaming如何实现输出不重复
如何优雅的关闭streaming任务
流处理内存持续占用过高问题怎么排查
如何保证实时任务7x24小时运行的稳定性
流处理Spark Streaming参数如何调优提供处理性能
流处理Spark Streaming如何进行task级别的监控
如何同时启动大量实时任务

存储

streaming数据存储在数据库mysql、hbase、redis

linux

如何查看Linux系统的缓存由那些大文件构成
Linux系统的“缓存数据”为什么删不掉

运维监控

kafka 监控工具的使用
启停（zookeeper/kafka/kafka manager/spark/）
如何对实时任务的延时情况进行监控

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

BigDataMLApplication 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。