
spark
文章平均质量分 85
ChaosJ
毕业于北京邮电大学,现就职于Tencent 。
主要技术栈:Yarn、K8S、Tensorflow、Java、C++、Python、Spark、Mapreduce;
主要工作内容:hadoop 平台运维、机器学习平台、服务部署管理平台建设及运维;
展开
-
Spark-2.x 编译构建及配置安装
Spark-2.x 编译构建及配置安装0. Spark-2.x 编译环境准备 编译服务器:ip 编译目录:/data10/spark/1. Spark-2.x编译a. note:提高Maven编译时的堆内存大小,防止编译过程中产生OOM异常,相关命令如下: export MAVEN_OPTS="-Xmx2g -XX:MaxPermSize=512M -XX原创 2016-10-24 14:08:36 · 4512 阅读 · 0 评论 -
spark sql error mark
java.lang.OutOfMemoryError: Direct buffer memory at java.nio.Bits.reserveMemory(Bits.java:658) at java.nio.DirectByteBuffer.(DirectByteBuffer.java:123) at java.nio.ByteBuffer.allocateDirect(ByteBuf原创 2016-11-08 11:33:26 · 929 阅读 · 0 评论 -
Spark-sql Join优化=>(cache+BroadCast)
Spark-sql Join优化背景 spark-sql或者hive-sql 很多业务场景都会有表关联的的操作,在hive中有map side join优化,对应的在spark-sql中也有map side join。spark中如果在参与join的表中存在小表,可以采用cache broadcast的方式进行优化,避免数据的shuffle,从而一定程度上可以避免数据倾斜,增加spark作业原创 2016-10-29 14:23:05 · 8369 阅读 · 4 评论 -
SPARK task执行与资源分配的关系
SPARK task执行与资源分配的关系问题背景执行spark某个sparkjob申请的资源是150个Executor,但是直至job执行结束(大约30多分钟),分配给该job的Executor个数是49个; 该job正常试行时间大约是14分钟,但由于此次分配该job的Executor个数少于150导致job执行过长大约30多分钟; 问题:为什么没有获得足够的资源,job就开始执行了?问题分析原创 2016-11-14 14:52:29 · 5122 阅读 · 0 评论