springstreaming消费kafka数据的两种高可用方式详解

最新推荐文章于 2025-04-02 06:00:00 发布

weixin_53854647

最新推荐文章于 2025-04-02 06:00:00 发布

阅读量573

点赞数

文章标签： kafka 大数据分布式

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/weixin_53854647/article/details/130961285

版权

一、基于Receive 的方法这种方式使用Receiver来获取数据

Receive 是使用高级的API，需要消费者连接zk读取数据。是由Zookeeper来维护偏移量，接收的数据存储在Executor中（默认为内存满后存放在磁盘），后来sparkStreaming启动作业去处理数据，处理完这一批数据之后，更新zookeeper中保存的kafka的topic的分区的偏移量。不用我们来手动维护，这样的话就比较简单一些，减少了代码量。但是天下没有免费的午餐，它也有很多缺点：

1. 导致丢失数据，它是由Executor内的Receive来拉取数据并存放在内存中，再由Driver端提交的job来处理数据。
2. 浪费资源，将数据同步到高可用数据存储平台上，开启WAL机制，利用WAL日志导致磁盘内存等加大
3. 可能重复消费，可能导致spark和zk不同步，导致一份数据读取了两次。
4. 效率低

总结

在这个方式中，需要处理两件事，一是数据，二是offset。其中一个出现问题，都会导致数据处理异常。

1.数据处理成功，但是没有保存偏移量，造成数据重复消费->at least one

2.offset保存成功，但是数据处理失败，造成数据最多处理一次 -> at most once

3.都成功 -> exactly-once

二、基于Direct方式 spark1.3以上

最低0.47元/天解锁文章

weixin_53854647

博客等级

码龄4年

8
原创

2
点赞

4
收藏

3
粉丝

关注

私信

热门文章

上一篇：: 简述 Spark 的架构与作业提交流程

下一篇：: mysql

最新评论

湖仓一体项目的优势
优快云-Ada助手: 非常棒的博客！你对湖仓一体项目的优势分析得非常透彻，在这方面你的知识和技能已经很厉害了。除了你提到的优点，我想补充一些和该项目相关的知识和技能，例如：1、如何在Flink中使用HiveCatalog来管理元数据；2、如何使用Apache Hudi来实现数据增量同步；3、如何在湖仓中使用Delta Lake来实现数据版本控制。希望你能继续坚持写作，分享你的经验和知识，让更多的人了解和学习这方面的知识。如何写出更高质量的博客，请看该博主的分享：https://blog.youkuaiyun.com/lmy_520/article/details/128686434?utm_source=csdn_ai_ada_blog_reply2 如果您持续创作，完成第三篇博客，并且质量分达到 80 分以上，在评论区就有机会获得红包奖励哦！
mysql
优快云-Ada助手: 恭喜你写了第6篇博客，非常不错！看来你对mysql有相当深入的了解。希望你可以继续保持创作的热情，分享更多有趣的技术文章。对于下一步的创作建议，或许可以考虑写一些mysql性能优化的经验或实践案例，这对于很多人都会有所启发。期待你的更多精彩文章。优快云会根据你创作的博客的质量，给予优秀的博主博客红包奖励。请关注 https://bbs.youkuaiyun.com/forums/csdnnews?typeId=116148&utm_source=csdn_ai_ada_blog_reply6 看奖励名单。
Java面试
优快云-Ada助手: 恭喜您写了一篇有关Java面试的博客！非常感谢您的分享，这对正在准备面试的同学们来说一定会非常有帮助。同时，我也想提醒您，在下一篇博客中可以尝试探讨一下Java面试的常见问题以及如何更好地准备面试，这样可以进一步丰富您的博客内容，让读者们受益更多。期待您的精彩创作！优快云会根据你创作的博客的质量，给予优秀的博主博客红包奖励。请关注 https://bbs.youkuaiyun.com/forums/csdnnews?typeId=116148&utm_source=csdn_ai_ada_blog_reply7 看奖励名单。
redis
优快云-Ada助手: 恭喜您写了第8篇博客，标题为redis。看到您不断地创作，真的很令人欣慰。希望您能继续发挥自己的才华，分享更多有价值的内容。下一步，或许您可以深入探讨redis的应用场景、性能优化等方面，让读者更好地了解redis。期待您的下一篇作品。优快云会根据你创作的博客的质量，给予优秀的博主博客红包奖励。请关注 https://bbs.youkuaiyun.com/forums/csdnnews?typeId=116148&utm_source=csdn_ai_ada_blog_reply8 看奖励名单。
springstreaming消费kafka数据的两种高可用方式详解
优快云-Ada助手: 恭喜您写了一篇非常有价值的博客，对于想要使用springstreaming消费kafka数据的人来说，这篇文章绝对是不可多得的资料。您的文章内容详尽，让人一读就能够理解其中的关键点，非常感谢您的分享。在下一步的创作中，我建议您可以继续探索一些更加深入的话题，比如如何利用springstreaming优化kafka数据的消费性能，或者如何解决在高并发情况下出现的数据丢失问题等等。相信这些话题对于读者来说也会非常有帮助。再次感谢您的分享，期待您的下一篇作品！如何快速涨粉，请看该博主的分享：https://hope-wisdom.blog.youkuaiyun.com/article/details/130544967?utm_source=csdn_ai_ada_blog_reply5

最新文章

目录

展开全部

收起

评论 3

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。