简述 Spark 的架构与作业提交流程

最新推荐文章于 2024-11-20 19:38:45 发布

weixin_53854647

最新推荐文章于 2024-11-20 19:38:45 发布

阅读量706

点赞数 2

文章标签： spark 架构 hadoop

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/weixin_53854647/article/details/130909633

版权

spark特点

spark 计算框架在处理数据时，所有的数据都存储在内存中。减少了磁盘的读写操作，提高了框架计算效率。同时spark还兼容HDFS、Hive，可以很好地与Hadoop系统兼容，弥补了mr高延迟的性能缺点。spark是一个更加高效、快速的大数据计算平台系统。市面上基本的大型离线分析系统都采用spark处理引擎。

基本概念

Application： spark运行的应用。application 中包含一个驱动器进程和集群中的多个执行进程。

Driver Program：运行main方法创建sparkcontext的进程

cluster Manager：用于集群上申请资源的外部服务（集群管理器、Mesos、Yarn）

work node：集群上运行应用程序代码的任意一个节点

Executor：在集群工作节点上为某个应用启动的工作进程，该进程负责运行计算任务，并为一个用程序存储数据。

Task：在Executor 进行中执行任务的工作单元，多个task 组成一个stage。

job：一个并行计算作业，由一组任务组成，并由spark行动算子触发启动。

stage：每个job划分为更小的task集合，每组任务被称为stage。

集群运行架构

spark应用在集群上作为独立的进程组来运行。

1. Driver 通过main创建一个spakrcontext，然后向cluster manager注册并申请资源

2. cluster manager 根据资源调度算法分配并监控资源使用情况，分配资源给work节点，work节点为应用启动多个executor，同时节点汇报心跳情况给cluster manager，便于集群管理器对executor 进行状态监控，如果监控到executor 失败，则立刻重新创建。

3. sparkcontext 构建的DAG图，将分解为stage。并把stage 发送到task scheduler，executor 向spakrcontext 申请task。

4. task scheduler 将task 发送给executor 运行，同时sparkcontext 将应用程序代码发送到executor。

5. task 在executor上运行，运行完毕后Driver 向cluster ma

最低0.47元/天解锁文章

weixin_53854647

博客等级

码龄4年

8
原创

2
点赞

4
收藏

3
粉丝

关注

私信

热门文章

上一篇：: Flink中的TableAPI

下一篇：: springstreaming消费kafka数据的两种高可用方式详解

最新评论

湖仓一体项目的优势
优快云-Ada助手: 非常棒的博客！你对湖仓一体项目的优势分析得非常透彻，在这方面你的知识和技能已经很厉害了。除了你提到的优点，我想补充一些和该项目相关的知识和技能，例如：1、如何在Flink中使用HiveCatalog来管理元数据；2、如何使用Apache Hudi来实现数据增量同步；3、如何在湖仓中使用Delta Lake来实现数据版本控制。希望你能继续坚持写作，分享你的经验和知识，让更多的人了解和学习这方面的知识。如何写出更高质量的博客，请看该博主的分享：https://blog.youkuaiyun.com/lmy_520/article/details/128686434?utm_source=csdn_ai_ada_blog_reply2 如果您持续创作，完成第三篇博客，并且质量分达到 80 分以上，在评论区就有机会获得红包奖励哦！
mysql
优快云-Ada助手: 恭喜你写了第6篇博客，非常不错！看来你对mysql有相当深入的了解。希望你可以继续保持创作的热情，分享更多有趣的技术文章。对于下一步的创作建议，或许可以考虑写一些mysql性能优化的经验或实践案例，这对于很多人都会有所启发。期待你的更多精彩文章。优快云会根据你创作的博客的质量，给予优秀的博主博客红包奖励。请关注 https://bbs.youkuaiyun.com/forums/csdnnews?typeId=116148&utm_source=csdn_ai_ada_blog_reply6 看奖励名单。
Java面试
优快云-Ada助手: 恭喜您写了一篇有关Java面试的博客！非常感谢您的分享，这对正在准备面试的同学们来说一定会非常有帮助。同时，我也想提醒您，在下一篇博客中可以尝试探讨一下Java面试的常见问题以及如何更好地准备面试，这样可以进一步丰富您的博客内容，让读者们受益更多。期待您的精彩创作！优快云会根据你创作的博客的质量，给予优秀的博主博客红包奖励。请关注 https://bbs.youkuaiyun.com/forums/csdnnews?typeId=116148&utm_source=csdn_ai_ada_blog_reply7 看奖励名单。
redis
优快云-Ada助手: 恭喜您写了第8篇博客，标题为redis。看到您不断地创作，真的很令人欣慰。希望您能继续发挥自己的才华，分享更多有价值的内容。下一步，或许您可以深入探讨redis的应用场景、性能优化等方面，让读者更好地了解redis。期待您的下一篇作品。优快云会根据你创作的博客的质量，给予优秀的博主博客红包奖励。请关注 https://bbs.youkuaiyun.com/forums/csdnnews?typeId=116148&utm_source=csdn_ai_ada_blog_reply8 看奖励名单。
springstreaming消费kafka数据的两种高可用方式详解
优快云-Ada助手: 恭喜您写了一篇非常有价值的博客，对于想要使用springstreaming消费kafka数据的人来说，这篇文章绝对是不可多得的资料。您的文章内容详尽，让人一读就能够理解其中的关键点，非常感谢您的分享。在下一步的创作中，我建议您可以继续探索一些更加深入的话题，比如如何利用springstreaming优化kafka数据的消费性能，或者如何解决在高并发情况下出现的数据丢失问题等等。相信这些话题对于读者来说也会非常有帮助。再次感谢您的分享，期待您的下一篇作品！如何快速涨粉，请看该博主的分享：https://hope-wisdom.blog.youkuaiyun.com/article/details/130544967?utm_source=csdn_ai_ada_blog_reply5

最新文章

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。