spark_ChaosJ的博客-优快云博客

spark

关注

文章平均质量分 85

关注数：文章数：4 文章阅读量：18932 文章收藏量：19

作者: ChaosJ

毕业于北京邮电大学，现就职于Tencent 。主要技术栈：Yarn、K8S、Tensorflow、Java、C++、Python、Spark、Mapreduce；主要工作内容：hadoop 平台运维、机器学习平台、服务部署管理平台建设及运维；

展开

Spark-2.x 编译构建及配置安装

Spark-2.x 编译构建及配置安装0. Spark-2.x 编译环境准备编译服务器：ip 编译目录：/data10/spark/1. Spark-2.x编译a. note:提高Maven编译时的堆内存大小，防止编译过程中产生OOM异常,相关命令如下： export MAVEN_OPTS="-Xmx2g -XX:MaxPermSize=512M -XX

原创 2016-10-24 14:08:36 · 4512 阅读 · 0 评论
spark sql error mark

java.lang.OutOfMemoryError: Direct buffer memory at java.nio.Bits.reserveMemory(Bits.java:658) at java.nio.DirectByteBuffer.(DirectByteBuffer.java:123) at java.nio.ByteBuffer.allocateDirect(ByteBuf

原创 2016-11-08 11:33:26 · 929 阅读 · 0 评论
Spark-sql Join优化=＞(cache+BroadCast)

Spark-sql Join优化背景　　spark-sql或者hive-sql 很多业务场景都会有表关联的的操作，在hive中有map side join优化，对应的在spark-sql中也有map side join。spark中如果在参与join的表中存在小表，可以采用cache broadcast的方式进行优化，避免数据的shuffle，从而一定程度上可以避免数据倾斜，增加spark作业

原创 2016-10-29 14:23:05 · 8369 阅读 · 4 评论
SPARK task执行与资源分配的关系

SPARK task执行与资源分配的关系问题背景执行spark某个sparkjob申请的资源是150个Executor，但是直至job执行结束（大约30多分钟），分配给该job的Executor个数是49个；该job正常试行时间大约是14分钟，但由于此次分配该job的Executor个数少于150导致job执行过长大约30多分钟；问题：为什么没有获得足够的资源，job就开始执行了?问题分析

原创 2016-11-14 14:52:29 · 5122 阅读 · 0 评论

spark

作者: ChaosJ

Spark-2.x 编译构建及配置安装

spark sql error mark

Spark-sql Join优化=＞(cache+BroadCast)

SPARK task执行与资源分配的关系