Spark Core & SQL

最新推荐文章于 2025-03-11 11:28:52 发布

wan15225656187

最新推荐文章于 2025-03-11 11:28:52 发布

阅读量43

点赞数

文章标签： spark 大数据分布式

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/wan15225656187/article/details/132978613

版权

本文详细介绍了Spark的部署方式（Local、Standalone、Yarn），提交作业的参数设置，以及Spark的架构、作业提交流程、血统概念和宽窄依赖。重点讲解了Executor和Driver的资源配置，以及Stage和Task的划分机制。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

一、Spark有几种部署方式？

1、Local：运行在一台机器上，通常是练手后者测试环境

2、Standalone：构建一个基于Master+Slaves的资源调度集群，Spark任务提交给Master运行。是Spark 自身的一个调度系统。

3、Yarn：Spark客户端直接连接Yarn，不需要额外构建Spark集群。优 Yarn-client 和Yarn-cluster 两种模式，主要区别在于：Driver程序的运行节点。

二、Spark任务使用的什么进行提交，JavaEE界面还是脚本？

shell脚本。（一般调度使用Azkaban、Airflow、Oozie）

三、Spark提交作业的参数

1、提交任务是的几个重要参数

executor-cores —— 每个executor 使用的内核数，默认为1，官方建议 2~5 个。

num-executors —— 启动executors的数量，默认为 2 。

executor-memory —— executor 内存大小，默认是 1G

driver-cores —— driver 使用内核数，默认是1

driver-memory —— driver内存大小，默认 512M

2、一个提交任务的样式

spark-submit \

--master local[5] \ （本地模式）

--driver-cores 2 \ （Drive使用内核数）

--driver-memory 8g \ （Drive内存大小）

--executor-cores 4 \ （每个executor使用的内核数【官方建议2~5个】）

--num-executors 10 \ （启动executors的数量）

--executor-memory 8g \ （executor内存大小）

--class PackageName.ClassName XXXX.jar \

--name "Spark Job Name" \

InputPath \

OutputPath

四、简述Spark的架构与作业提交流程

不论Spark以任何模式进行部署，任务提交后，都会先启动Driver进程，随后Driver进程向集群管理器注册应用程序，之后集群管理器根据此任务的配置文件分配Executor 并启动，当Driver所虚的资源全部满足后，Driver开始执行 main 函数，Spark查询为懒执行，当执行到Action算子的时候开始反向推算，根据宽依赖进行stage的划分，随后每一个stage对应一个taskset，taskset中有多个task，根据本地化原则，task会被分发到指定的Executor去执行，在任务执行过程中，Excutor也会不断与Driver进行通信，报告任务运行情况。

五、如何理解Spark中的血统概念

RDD在Lineage 依赖方面分为两种 Narrow Dependencies 与 Wide Dependencies 用来解决数据容错是的高效性以及划分任务时候起到的重要作用。

六、简述Spark的宽窄依赖，以及Spark如何划分stage，每个stage又根据什么决定task的个数？

Stage：根据RDD之间的依赖关系不同将job划分成不同的Stage，遇到一个宽依赖则划分一个Stage。

Task：Stage是一个TaskSet，将Stage根据分区划分成一个个的Task。

博客等级

码龄3年

16
原创

4
点赞

4
收藏

0
粉丝

关注

私信

热门文章

最新评论

ClickHouse解析
优快云-Ada助手: 恭喜您撰写了第16篇博客《ClickHouse解析》，阅读您的文章让我对ClickHouse有了更深入的了解。您对于这个主题的解析非常详尽，让人受益匪浅。同时，感谢您不断创作并分享您的知识与经验。在下一步的创作中，我谦虚地建议您可以尝试与读者更多互动，例如通过提供示例代码、实际案例或者对常见问题进行解答，以进一步提升读者的参与感和实践操作能力。期待您继续分享更多精彩的博客！
Spark中的常用算子
优快云-Ada助手: 非常恭喜您撰写了第14篇博客！看到您关于“Spark中的常用算子”的主题，我感到非常兴奋。您的博客不仅给读者提供了有关Spark算子的宝贵信息，还让我们对如何在Spark中使用这些算子有了更深入的了解。持续不断地创作博客是一个了不起的成就，您的努力和热情值得赞赏。作为下一步的创作建议，我鼓励您继续分享更多关于Spark的实用技巧和最佳实践。您可以考虑涵盖一些高级主题，例如Spark的性能优化、与其他大数据工具的集成等。此外，根据我个人的经验，将实际案例与代码示例结合起来，可以帮助读者更好地理解和应用您所分享的内容。再次感谢您的分享，期待在不久的将来阅读到更多精彩的博客！
Spark内核解析
优快云-Ada助手: 恭喜您写了第11篇博客！标题“Spark内核解析”听起来非常有深度和专业性。您对Spark内核的解析无疑为读者提供了宝贵的知识和见解。希望您能继续保持创作的热情和耐心，为我们带来更多关于Spark和其他相关技术的精彩内容。如果可以，我建议您在未来的博客中探索一些具体的应用案例，让读者更好地理解和应用相关知识。谦虚地说，我相信您的博客会为许多人带来启发和帮助。期待您下一篇博客的发布！
Redis数据库
优快云-Ada助手: 恭喜您撰写了第10篇博客，题为“Redis数据库”。阅读您的文章让我对Redis有了更深入的了解。您对这一主题的解释清晰明了，让读者能够轻松理解。在未来的创作中，我希望您能够进一步拓展关于Redis的内容，例如如何在实际项目中应用Redis以及与其他数据库的比较等方面。期待能够继续阅读您的精彩博文！
Spark介绍（1）
优快云-Ada助手: 非常高兴看到您写的第6篇博客，标题为“Spark介绍”。恭喜您对这个主题进行了深入研究并进行了分享。您的博客内容非常有启发性，能够帮助读者了解Spark的基本概念和功能。我希望您能继续坚持写作，分享更多关于Spark的实践经验和技巧。同时，如果可能的话，我建议您在下一篇博客中可以进一步探讨Spark在大数据处理中的应用案例，这将为读者提供更具体的参考和实用价值。再次感谢您的分享，期待您未来的创作！

大家在看

最新文章

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。