
spark
南修子
深圳大数据求坑~
展开
-
又来写那个java提交spark-submit获取application_id的方法了,真实时这次
这里用到一个第三方的包,是github开源的地址在这https://github.com/zeroturnaround/zt-execmaven依赖 <dependency> <groupId>org.zeroturnaround</groupId> <artifactId>zt-exec</artifactId> <version>1.11</ve原创 2020-06-18 09:09:59 · 1036 阅读 · 0 评论 -
拿submit 提交的yarn id的更好方式
之前利用shell取的方式不太好,应为会等整个过程结束才能拿到appid因为我是在java调用启动脚本的那么直接在java那边获取实时输出进行判断就可以了shell 代码后面加上 2>&1java代码 BufferedReader br = new BufferedReader(new InputStreamReader(pro.getInputStream())); StringBuffer resultBuffer = new StringBuffer原创 2020-06-16 19:07:19 · 445 阅读 · 0 评论 -
shell spark-submit提交之后获取appid,并在程序中扫描状态
#首先看一下提交脚本#/sbin/bash/opt/cloudera/parcels/SPARK2/bin/spark2-submit \ export JAVA_HOME=/opt/jdk1.8.0_31TASK_TYPE=$1TASK_JSON=$2SPARK_CONFIG=$3appId=`$SPARK_CONFIG \"$TASK_JSON" \$TASK_TYPE \2>&1 | tee /dev/tty | grep -i "Submitting applic原创 2020-06-16 15:33:22 · 2212 阅读 · 0 评论 -
spark sql udf ,计算数学表式
前几天有个spark 任务特别的慢,原因是我写了一个udf,把一个对象作为构造函数的对象穿进去了这个udf的功能是为了实现,把传入的数学表达式(如:20*x/(20-x)),和传入的列的值做计算,把传入的列的值替换成x刚开始的想法就是直接用java提供的方法,就是开篇所说的,结果几十万的数据跑半小时,后面就放弃了最终做法就是,直接在udf写计算方法,也是网上参考了一位同行的我计算的都是double @Override public Double call(Double thi原创 2020-06-16 15:32:32 · 331 阅读 · 0 评论 -
spark udf 提示not serializable
20/06/08 16:41:06 INFO memory.MemoryStore: Block broadcast_0 stored as values in memory (estimated size 327.2 KB, free 912.0 MB)20/06/08 16:41:06 INFO memory.MemoryStore: Block broadcast_0_piece0 stored as bytes in memory (estimated size 30.1 KB, free 912原创 2020-06-16 15:31:12 · 899 阅读 · 0 评论 -
Spark sql 写分区表,设置format报错
####遇到一个问题。spark sql dataset 写入表的时候,我写的是一个用ymd分区的表,我想设置输出格式format(“hive”),然后报错了代码如下ds.write().partitionBy(partitionsStr) .option("path", hdfspath) .mode(SaveMode.Append).format("hive") .saveAsT原创 2020-06-16 15:30:34 · 1548 阅读 · 0 评论 -
Spark Submit提交时,Json字符串作为参数
#今天遇到一个把json作为参数 传入spark程序中的问题###原因如下,Spark 源码 中会对把}} 和 {{替换掉@VisibleForTesting public static String expandEnvironment(String var, Path containerLogDir) { var = var.replace(ApplicationConstants.LOG_DIR_EXPANSION_VAR, containerLogDir.toS原创 2020-06-16 15:29:49 · 889 阅读 · 0 评论