
Spark
acm160920007
这个作者很懒,什么都没留下…
展开
-
Spark学习(二) : 常见RDD操作
首先是任何数据类型都支持的操作:1,针对各个元素的转化操作(1) map() 和 filter()map() :接受一个函数,把函数用于RDD中的每个元素,将函数的返回结果作为结果RDD中对应元素的值。scala> val input = sc.parallelize(List(1,2,3,4))input: org.apache.spark.rdd.RDD[Int] =...原创 2018-08-05 11:10:19 · 424 阅读 · 0 评论 -
Spark学习(三):键值对RDD操作
键值对RDD(pairRDD)是Spark中许多操作所需要的常见数据类型。1,创建pairRDD在Spark中有许多创建pairRDD的方式,很多存储键值对的数据格式会在读取时直接返回由其键值对数据组成的pairRDD。此外当需要把一个普通RDD转换为pairRDD时,可以调用map()函数。简单的创建方式如下:scala> val lines = sc.parallelize...原创 2018-08-06 11:51:51 · 1262 阅读 · 0 评论 -
Spark学习(一):Spark独立应用
Spark是一个用来实现快速而通用的集群计算的平台。包括Spark Sql ,Spark Steaming ,MLlib,GraphX,集群管理器等等。每个Spark应用都有一个驱动器程序来发起集群上的各种并行操作,同时,通过SparkContext对象来访问Spark.创建一个独立的Spark应用,首先初始化SparkContext 如下:(java版本)SparkConf con...原创 2018-08-02 15:22:15 · 774 阅读 · 0 评论 -
数据算法 (二次排序):Spark+Scala语言实现
之前用到的是MapReduce 解决二次排序问题,另一种实现方式是利用Spark实现,就简单多了我们考虑如下数据:y,2,5x,1,3y,1,7y,1,1y,3,1x,3,6z,1,4z,2,8z,3,7z,4,0p,2,6p,4,7p,1,9p,6,0p,7,3我们希望最终结果是这样 :首先按字母排序,然后按第一个数字,最后按第三个数字排序imp...原创 2018-08-07 09:13:27 · 390 阅读 · 0 评论