
Spark
桔梗的犬夜叉
这个作者很懒,什么都没留下…
展开
-
Spark 广播变量的使用(Java版)
原文地址:https://www.cnblogs.com/learn-bigdata/p/10794881.html广播变量:主要应用与Driver创建的变量,在Executor端需要用到时,可以使用广播变量package SparkStreaming;import org.apache.spark.SparkConf;import org.apache.spark.api.ja...转载 2019-11-20 17:25:08 · 2834 阅读 · 0 评论 -
SparkSubmit 启动spark任务脚本
#spark-submit路径sparksubmits="/opt/cloudera/parcels/SPARK2/bin/spark2-submit"#jar包所在本地目录echo "begin running MarkLabelLogicDriver model"#使用spark-submit提交spark程序su root -c "$sparksubmits --class cn...原创 2019-11-20 17:18:03 · 308 阅读 · 0 评论 -
Spark在集群上提交任务的脚本
spark启动脚本:###hadoop配置文件export HADOOP_CONF_DIR=/etc/hadoop/conf#spark-submit路径sparksubmits="/opt/cloudera/parcels/SPARK2/bin/spark2-submit"#jar包所在本地目录jars="/usr/java/checkpoint/SSE_ST2_ANALYSI...原创 2019-11-18 08:47:47 · 443 阅读 · 0 评论 -
java.io.NotSerializableException: org.apache.spark.api.java.JavaSparkContext,sparkcontext无法被序列化的问题
sparkcontext无法被序列化的问题,当我们在使用RDD调用map等算子,或者Dstream使用transform时,我们需要在它们的重写的方法里面,需要利用sparkcontext 比如把一个集合转化为RDD,但是一运行就报java.io.NotSerializableException: org.apache.spark.api.java.JavaSparkContext(sparkco...原创 2019-04-15 13:38:53 · 4881 阅读 · 3 评论 -
Spark RDD的缓存(cache)问题:[实践出真知]
最近用spark时,对于RDD的处理和操作用的较多,也顺便学习了一下关于RDD缓存的知识,我们都明白RDD之间的依赖关系,父RDD和子RDD,子RDD在运行时的数据可以从父RDD计算后得到,当RDD的层级关系较为复杂,有多级关系的时候,我们可以使用缓存RDD的方式,来减少spark程序的计算量.RDD的cache机制,有利有弊,先说我在项目中遇到的问题,在开发过程中,当子RDD有多个时,而且需...原创 2019-09-09 16:25:46 · 1053 阅读 · 0 评论