Spark资源分配

一、整体情况

1、服务器资源

        5台datanode节点

        cpu:48 查看命令:cat /proc/cpuinfo | grep processor | wc -l

        内存:128G 查看命令:free -h

2、yarn资源

        yarn.nodemanager.resource.cpu-vcores = 36

        yarn.nodemanager.resource.memory-mb = 70G

        注:datanode节点上还部署这其他程序。

3、spark资源配置项

        --driver-cores Driver核心数

        --driver-memory Driver内存数

        --num-executors Executor个数

        --executor-cores Executor核心数

        --executor-memory Executor内存数

二、个人思考

1、driver资源分配

        driver本身不负责计算,并且我的spark程序不涉及到需要driver端加载或者driver搜集的代码,所以driver端的资源可以给的较少。

        --driver-cores=2

        --driver-memory=2G

2、executor资源分配

        executor负责实际的计算任务,应该根据整体资源情况适当多分配资源。

2.1 内存:

        部分资料上建议executor的内存数不建议超过5G,否则会有性能损失。所以暂时设置为4G。

        ((5 * 70) - 2) / 4 = 87,单考虑内存的话,可以支持87个executor。

2.2 CPU:

        部分资料上建议executor的核心数为4个。

        ((5 * 36) - 2) / 4 = 44 ,单考虑内存的话,可以支持44个executor。

2.3 汇总

        两者取小值,假定最大executor个数为44个。

        得出以下假定的集群最大资源分配:

                --num-executors = 44

                --executor-cores = 4

                --executor-memory = 4G

        总资源消耗:

                总内存:44 * 4 = 176G

                总CPU:44 * 4 = 176

                总task:44 * 4 * 2 = 352(官方建议每个cpu运行2-3个task)

3、总结

        以上是个人计算出的最大资源分配。但是在实际使用过程中,并不需要这么高的并行度,比如一些简单的etl任务,如果最后一个stage的并行度过高,会生成大量小文件,这是不希望看到的。

        因此,我选择根据实际的并行度设计的情况下,保持executor的cpu和内存数不变,酌情减少executor个数。

### Hadoop与Spark资源分配机制比较 #### 1. Hadoop 的资源分配机制 Hadoop 使用 YARN (Yet Another Resource Negotiator) 来管理集群中的资源。YARN 将资源管理和作业调度分离成两个独立的服务组件:ResourceManager 和 NodeManager。当提交一个 MapReduce 任务时,ApplicationMaster 向 ResourceManager 请求容器(Container),而这些容器由各个节点上的 NodeManager 提供[^3]。 - **静态分区**:在传统的 MapReduce 中,资源是以固定的槽位(Slot)形式预先划分好的,分为 map slot 和 reduce slot。这种设计可能导致资源浪费或者利用率不均衡的情况发生。 - **动态调整能力有限**:尽管后来引入了 YARN 改善这一情况,但在运行过程中仍然难以灵活应对突发的任务需求变化。 #### 2. Spark资源分配机制 相比之下,Apache Spark 更加注重内存级别的优化以及快速迭代计算的支持。它同样能够运行于 YARN 上面作为其执行环境之一;除此之外也支持 Standalone 模式以及其他多种部署选项比如 Mesos 等[^4]。 - **弹性分布式数据集(RDDs)**:这是 Spark 核心概念之一,在整个应用程序生命周期内保持不变的数据集合。通过缓存 RDD 到内存里来减少 I/O 开销,进而提升整体性能表现[^5]。 - **细粒度控制**:相比起 Hadoop 只能在批次级别上做简单的资源配置决策不同的是,Spark 允许开发者针对每一个阶段甚至每条记录指定不同的处理逻辑及其所需的硬件条件参数设置(例如 CPU 数量、内存大小等)。这使得复杂工作负载下的系统响应速度更快且更加稳定可靠[^6]。 #### 3. 总结对比分析 | 特性 | Hadoop | Spark | |-------------------|----------------------------------|------------------------------------| | 默认存储位置 | 数据默认存储到磁盘 | 所有中间结果尽可能驻留在内存中 | | 对低延时查询的支持程度 | 较差 | 非常好 | | 并发性和多租户支持 | 基本满足 | 显著增强 | 综上所述可以看出,虽然两者都可以完成大规模数据分析任务,但由于设计理念和技术架构方面存在本质区别,因此它们各自擅长的应用场景也会有所侧重[^7]。 ```python # 示例代码展示如何配置 Spark 应用程序的资源请求 spark.conf.set("spark.executor.memory", "8g") spark.conf.set("spark.executor.cores", "4") ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值