
spark
文章平均质量分 87
瞌死在大数据
这个作者很懒,什么都没留下…
展开
-
spark搭建
standalone 1、上传解压,配置环境变量 配置bin目录 2、修改配置文件 conf cp spark-env.sh.template spark-env.sh 增加配置 export SPARK_MASTER_IP=master export SPARK_MASTER_PORT=7077 export SPARK_WORKER_CORES=2 export SPARK_WORKER_INSTANCES=1 export SPARK_WORKER_MEMORY=2g export JAVA_HOME原创 2021-12-22 20:36:57 · 188 阅读 · 0 评论 -
spark调优
代码调优 避免创建重复的RDD 尽可能复用同一个RDD 对多次使用的RDD进行持久化 首选缓存策略是memory_only,如果RDD中的数据比较多,直接使用这种持久化级别,容易导致JVM的OOM内存溢出异常 其次再是MEMORY_AND_DISK_SER,SER会进行序列化,对数据进行压缩 尽量避免使用shuffle类算子 使用map-side预聚合的shuffle操作 使用高性能的算子 使用reducerByKey代替groupByKey,reducerByKey会在map端提前原创 2021-12-20 21:30:18 · 1445 阅读 · 0 评论