
spark
文章平均质量分 92
jim8973
这个作者很懒,什么都没留下…
展开
-
Spark中的排序SortBy
1、Tuple类型val products = sc.parallelize(List("屏保 20 10","支架 20 1000","酒精棉 5 2000","吸氧机 5000 1000")) val productData = products.map(x=>{ val splits = x.split(" ") val name = splits(0) val price = splits(1).toDouble val amount原创 2020-09-13 15:24:20 · 2179 阅读 · 0 评论 -
Spark多目录输出&&计数器&&广播变量&&持久化序列化
例子object Work02App { def main(args: Array[String]): Unit = { val sparkConf = new SparkConf().setMaster("local[2]").setAppName(this.getClass.getSimpleName) val sc = new SparkContext(sparkCon...原创 2020-04-18 11:53:29 · 408 阅读 · 0 评论 -
Spark使用Yarn模式解决Jar乱飞情况
1、在本地创建zip文件# 在spark的jars目录下zip spark.zip ./*2、HDFS上创建存放spark jar目录hdfs dfs -mkdir -p /spark-yarn/jars3、将$SPARK_HOME/jars下的spark.zip包上传至刚健的HDFS路径[hadoop@hadoop jars]$ hdfs dfs -put ./spark.zip...原创 2020-04-18 09:42:12 · 305 阅读 · 0 评论 -
spark on yarn client和spark on yarn cluster区别
概述spark on yarn 的优势是每个Spark executor作为一个Yarn容器(container)运行,Spark可以使得多个Task在同一个容器(container)里面运行;有两种模式:yarn-client和yarn-clusteryarn-client:driver运行在client端;适用于调式,能直接看到各种日志;连接断了,任务就挂了driver运行在am中;日......原创 2020-04-05 22:49:06 · 594 阅读 · 0 评论 -
Spark源码编译和IDEA导入源码
官方部署文档:http://spark.apache.org/docs/latest/building-spark.htmlspark的github源码下载地址:https://github.com/apache/spark设置maven的执行内存:export MAVEN_OPTS="-Xmx2g -XX:ReservedCodeCacheSize=1g"打包:./build/mvn -...原创 2020-04-05 16:22:19 · 678 阅读 · 0 评论 -
Spark RDD的方式求TopN
数据www.baidu.com,url5www.baidu.com,url5www.baidu.com,url5www.baidu.com,url5www.baidu.com,url5www.google.com,url8www.google.com,url2www.google.com,url1www.twitter.com,url10www.twitter.com,url1...原创 2020-03-30 22:57:29 · 534 阅读 · 0 评论 -
查看RDD运行所需要的JVM Heap大小和Spark主要的RDD算子、关于Join的shuffle、ByKey算子
zip:拉链,分区数需要相同(分区不同Can’t zip RDDs with unequal numbers of partitions: List(4, 2));元素个数也要相同(Can only zip RDDs with same number of elements in each partition) val rddzip1 = sc.parallelize(List("ruoze......原创 2020-03-22 23:32:56 · 452 阅读 · 0 评论 -
Spark没有设置序列化导致提交任务问题
**org.apache.spark.SparkException: Job aborted due to stage failure: Task 0.0 in stage 2.0 (TID 2) had a not serializable result:object not serializable (class: org.apache.hadoop.hbase.io.ImmutableB...原创 2019-11-26 23:05:03 · 415 阅读 · 0 评论