
spark
blueheart丶
If I had eight hours to chop down a tree, I would spend six hours sharpening my axe。
展开
-
map vs mapPartitions
版本:Apache spark 1.6.0 源码:RDD.scala 一、源码说明 1、map算子 // Transformations (return a new RDD)/** * Return a new RDD by applying a function to all elements of this RDD. */ def map[U: ClassTag](f: T =&g...转载 2019-01-04 18:12:43 · 567 阅读 · 0 评论 -
reduce和reduceByKey区别
1、reduce 是用于一元组,遍历一元组的数据,进行处理。 List<Integer> data = Arrays.asList(1,2,3,4,5,6); JavaRDD<Integer> parallelizeRdd = jsc.parallelize(data); Integer reduceSum = parallelizeRdd.reduce(new Fu...原创 2019-01-07 17:57:22 · 2877 阅读 · 0 评论 -
spark算子学习笔记
第一天学习 -------transformation 1、join,leftOuterJoin,rightOuterJoin,fullOuterJoin 作用在K,V格式的RDD上。根据K进行连接,对(K,V)join(K,W)返回(K,(V,W)) join后的分区数与父RDD分区数多的那一个相同。 2、union 合并两个数据集。两个数据集的类型要一致。返回新的RDD的分区数是合并R...原创 2019-01-21 15:30:52 · 198 阅读 · 0 评论 -
spark的topn问题
1、按第一个字段从大到小降序取出前三个字段 3,zhangsan 5,lisi 6,wangwu 7,wermaziang 1,bjsxt 4,shsxt 5,xiansxt 6,gzsxt 9,laogao 0,xiaogao 3,laoxiao JavaRDD<String> linesRDD = sc.textFile("top.txt"); JavaPairRDD&l...原创 2019-02-13 22:04:43 · 675 阅读 · 0 评论