spark
文章平均质量分 88
姜嘟嘟
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Spark性能优化指南(高级篇)
Spark性能优化指南(高级篇)数据倾斜调优调优概述有的时候,我们可能会遇到大数据计算中最棘手的问题-数据倾斜,此时spark作业的性能会比期望差很多。数据倾斜调优,就是使用各种技术方案解决不同类型的数据倾斜问题,以保证spark作业的性能。数据倾斜发生时的现象绝大多数task执行的都非常快,但个别task执行极慢,比如,总共有1000个task,997个task都在1分钟之内执行完了,但是剩余两三个task却要一两个小时,这种情况很常见。原本能够正常执行的spark作业,某天突然报出OO原创 2021-03-04 19:35:35 · 494 阅读 · 1 评论 -
Spark Core配置参数
###Spark Core优化参数配置应用属性描述spark.driver.cores在集群模式下管理资源时,用于driver程序的CPU内核数量,默认为1;在生产环境的硬件上,这个值可能最小要上调到8或16spark.driver.maxResultSize如果应用频繁用此driver程序,建议对这个值的设置高于其默认值1G,0表示没有限制,这个值反应了Spark Action的全部分区中最大的结果集的大小spark.driver.memorydriver进程使用的原创 2021-03-04 16:29:45 · 730 阅读 · 0 评论 -
Spark知识讲解
Spark知识点讲解SparkSpark环境部署Spark简介为什么使用SparkSpark的优势Spark技术栈Spark架构设计Spark架构核心组件Spark交互工具Spark APISparkContextSparkSessionRDDDataSetDataFrameSpark RDD概念RDD与DAGRDD的特性RDD编程流程创建RDDRDD分区RDD的操作RDD转换算子RDD常用算子Spark分布式计算原理RDD的依赖关系DAG的工作原理SparkSpark环境部署前置条件:完成Scal原创 2021-02-23 15:38:21 · 1261 阅读 · 0 评论
分享