方案设计
- 如何结合业务要求对流数据处理方案进行选型(mq选型,流数据处理引擎选型,数据库选型。。)
- 数据丢失的可能性分析
- 怎么实现数据精准一致性exactly-once
- lamda架构的实现
mq
- kafka偏移量两种提交方式,三种auto.offset.reset方式的含义和演示(包含代码)
- kafka offset的三种存储方式(hbase,zookeeper,kafka自身)
- 如何删除kafka话题数据
- mq参数如何调优
- 生产mq参数如何配置
- 如何压测kafka集群性能
流数据引擎
- kafka与streaming数据对接
- 流处理Spark Streaming如何动态控制消费速率
- 流处理Spark Streaming如何调优batch interval参数
- 流处理Spark Streaming如何调优gc参数
- 流处理Spark Streaming如何实现输出不重复
- 如何优雅的关闭streaming任务
- 流处理内存持续占用过高问题怎么排查
- 如何保证实时任务7x24小时运行的稳定性
- 流处理Spark Streaming参数如何调优提供处理性能
- 流处理Spark Streaming如何进行task级别的监控
- 如何同时启动大量实时任务
存储
- streaming数据存储在数据库mysql、hbase、redis
linux
- 如何查看Linux系统的缓存由那些大文件构成
- Linux系统的“缓存数据”为什么删不掉
运维监控
- kafka 监控工具的使用
- 启停(zookeeper/kafka/kafka manager/spark/)
- 如何对实时任务的延时情况进行监控

本文探讨了流数据处理方案的选型策略,包括MQ、流数据处理引擎及数据库的选择,重点分析Kafka的偏移量提交方式、offset存储方式及参数调优。同时,深入讨论Spark Streaming的消费速率控制、参数调优、任务稳定运行及内存占用问题。
1万+

被折叠的 条评论
为什么被折叠?



