dehou1984-优快云博客

转载 spark编程模型（二十二）之RDD存储行为操作（Action Operation）——saveAsTextFile、saveAsSequenceFile、saveAsObjectFile...

saveAsTextFiledef saveAsTextFile(path: String): Unitdef saveAsTextFile(path: String, codec: Class[_ <: CompressionCodec]): UnitsaveAsTextFile用于将RDD以文本文件的格式存储到文件系统中codec参数可以指定压缩的类名hdfs://...

2018-08-11 01:38:00 420

转载 spark编程模型（二十一）之RDD集合标量行为操作（Action Operation）——countByKey、foreach、foreachPartition、sortBy...

countByKeydef countByKey(): Map[K, Long]countByKey用于统计RDD[K,V]中每个K的数量 scala> var rdd1 = sc.makeRDD(Array(("A",0),("A",2),("B",1),("B",2),("B",3))) rdd1: org.apache.spark.rdd.RDD[(String...

2018-08-11 01:37:00 210

转载 spark编程模型（十九）之RDD集合标量行为操作（Action Operation）——take、top、takeOrdered...

takedef take(num: Int): Array[T]take用于获取RDD中从0到num-1下标的元素，不排序 scala> var rdd1 = sc.makeRDD(Seq(10, 4, 2, 12, 3)) rdd1: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[40] at makeR...

2018-08-11 01:36:00 183

转载 spark编程模型（二十）之RDD集合标量行为操作（Action Operation）——aggregate、fold、lookup...

aggregatedef aggregate[U](zeroValue: U)(seqOp: (U, T) ⇒ U, combOp: (U, U) ⇒ U)(implicit arg0: ClassTag[U]): Uaggregate用于聚合RDD中的元素，先使用seqOp将RDD中每个分区中的T类型元素聚合成U类型，再使用combOp将之前每个分区聚合后的U类型聚合成U类型特...

2018-08-11 01:36:00 237

转载 spark编程模型（十八）之RDD集合标量行为操作（Action Operation）——first、count、reduce、collect...

firstdef first(): Tfirst返回RDD中的第一个元素，不排序 scala> var rdd1 = sc.makeRDD(Array(("A","1"),("B","2"),("C","3")),2) rdd1: org.apache.spark.rdd.RDD[(String, String)] = ParallelCollectionRDD[33...

2018-08-11 01:34:00 241

转载 spark编程模型（十七）之RDD控制操作(Control Operation)与持久化

Spark可以将RDD持久化到内存或磁盘文件系统中，默认情况下，spark将数据存于内存中，这样提高迭代计算以及各计算模型之间的数据共享，同时也带来了一定的风险性。一般情况下执行节点60%内存用于缓存数据，剩下的40%用于运行任务。什么情况下需要对数据进行持久化（1）某步骤计算特别耗时，重新计算的代价较高，所以进行持久化（2）计算链条特别长的情况下，重新计算的代价也较高（3）c...

2018-08-11 01:28:00 133

转载 spark编程模型（十六）之RDD键值转换操作（Transformation Operation）——leftOuterJoin、rightOuterJoin、subtractByKey...

leftOuterJoindef leftOuterJoin[W](other: RDD[(K, W)]): RDD[(K, (V, Option[W]))]def leftOuterJoin[W](other: RDD[(K, W)], numPartitions: Int): RDD[(K, (V, Option[W]))]def leftOuterJoin[W](other...

2018-08-11 01:27:00 114

转载 spark编程模型（十四）之RDD键值转换操作（Transformation Operation）——groupByKey、reduceByKey、reduceByKeyLocally...

groupByKeydef groupByKey(): RDD[(K, Iterable[V])]def groupByKey(numPartitions: Int): RDD[(K, Iterable[V])]def groupByKey(partitioner: Partitioner): RDD[(K, Iterable[V])]该函数用于将RDD[K,V]中每个K对应的...

2018-08-11 01:26:00 202

转载 spark编程模型（十五）之RDD键值转换操作（Transformation Operation）——cogroup、join...

cogroup参数为1个RDDdef cogroup[W](other: RDD[(K, W)]): RDD[(K, (Iterable[V], Iterable[W]))]def cogroup[W](other: RDD[(K, W)], numPartitions: Int): RDD[(K, (Iterable[V], Iterable[W]))]def cogro...

2018-08-11 01:26:00 120

转载 spark编程模型（十三）之RDD键值转换操作（Transformation Operation）——combineByKey、foldByKey...

combineByKey()def combineByKey[C](createCombiner: (V) => C, mergeValue: (C, V) => C, mergeCombiners: (C, C) => C): RDD[(K, C)]def combineByKey[C](createCombiner: (V) => C, mergeVal...

2018-08-11 01:25:00 140

转载 spark编程模型（十一）之RDD基础转换操作（Transformation Operation）——zipWithIndex、zipWithUniqueId...

zipWithIndex()def zipWithIndex(): RDD[(T, Long)]该函数将RDD中的元素和这个元素在RDD中的ID（索引号）组合成键/值对 scala> var rdd2 = sc.makeRDD(Seq("A","B","R","D","F"),2) rdd2: org.apache.spark.rdd.RDD[String] = Pa...

2018-08-11 01:24:00 121

转载 spark编程模型（十二）之RDD键值转换操作（Transformation Operation）——partitionBy、mapValues、flatMapValues...

partitionBy()def partitionBy(partitioner: Partitioner): RDD[(K, V)]该函数根据partitioner函数生成新的ShuffleRDD，将原RDD重新分区 scala> var rdd1 = sc.makeRDD(Array((1,"A"),(2,"B"),(3,"C"),(4,"D")),2) rdd1...

2018-08-11 01:24:00 149

转载 spark编程模型（十）之RDD基础转换操作（Transformation Operation）——zip、zipPartitions...

zip()def zip[U](other: RDD[U])(implicit arg0: ClassTag[U]): RDD[(T, U)]zip函数用于将两个RDD组合成Key/Value形式的RDD,这里默认两个RDD的partition数量以及元素数量都相同，否则会抛出异常 scala> var rdd1 = sc.makeRDD(1 to 10,2) rdd...

2018-08-11 01:23:00 140

转载 spark编程模型（九）之RDD基础转换操作（Transformation Operation）——mapPartitions、mapPartitionsWithIndex...

mapPartitions():def mapPartitions[U](f: (Iterator[T]) => Iterator[U], preservesPartitioning: Boolean = false)(implicit arg0: ClassTag[U]): RDD[U]该函数和map函数类似，只不过映射函数的参数由RDD中的每一个元素变成了RDD中每一个分...

2018-08-11 01:22:00 160

转载 spark编程模型（八）之RDD基础转换操作（Transformation Operation）——union、intersection、subtract...

union()def union(other: RDD[T]): RDD[T]将两个RDD进行合并，不去重 scala> var rdd1 = sc.makeRDD(1 to 2,1) rdd1: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[45] at makeRDD at :21 scala&g...

2018-08-11 01:22:00 189

转载 spark编程模型（七）之RDD基础转换操作（Transformation Operation）——randomSplit、glom...

randomSplit():def randomSplit(weights: Array[Double], seed: Long = Utils.random.nextLong): Array[RDD[T]]该函数根据weights权重，将一个RDD切分成多个RDD该权重参数为一个Double数组，第二个参数为random的种子，基本可忽略randomSplit的结果是一个RD...

2018-08-11 01:21:00 236

转载 Mac OS 安装 Hive

Mac OS 安装 Hive一、环境说明操作系统：macOS High Sierra 10.13.2hadoop版本：apache hadoop 2.6.0mysql版本：mysql 5.7.22hive版本：apache hive 1.2.2二、安装步骤在mysql数据库创建hive用户 mysql> create user 'hive' identifie...

2018-08-11 01:21:00 792

转载 spark编程模型（五）之RDD基础转换操作（Transformation Operation）——map、flatMap、distinct、filter...

map()将一个RDD中的每个数据项，通过map中的函数映射变为一个新的元素。输入分区与输出分区一对一，即：有多少个输入分区，就有多少个输出分区 scala> val data = sc.textFile("/data/spark_rdd.txt") data: org.apache.spark.rdd.RDD[String] = /data/spark_rdd.tx...

2018-08-11 01:20:00 252

转载 spark编程模型（六）之RDD基础转换操作（Transformation Operation）——coalesce、repartition...

coalesce()def coalesce(numPartitions: Int, shuffle: Boolean = false)(implicit ord: Ordering[T] = null): RDD[T]该函数用于将RDD进行重分区，使用HashPartitioner第一个参数为重分区的数目，第二个为是否进行shuffle，默认为false只传入第一个参数，表示...

2018-08-11 01:20:00 224

转载 spark编程模型（四）之RDD创建操作（Creation Operation）

Spark 主要以一个弹性分布式数据集（RDD）的概念为中心，它是一个容错且可以执行并行操作的元素的集合。有两种方法可以创建 RDD :(1)在你的 driver program（驱动程序）中 parallelizing 一个已存在Scala的集合，(2)在外部存储系统中引用一个数据集，例如，一个共享文件系统，HDFS，HBase，或者提供 Hadoop InputFormat 的...

2018-08-11 01:19:00 239

转载 spark编程模型（三）之RDD依赖关系

RDD依赖关系在RDD中将依赖划分成两种类型：窄依赖(Narrow Dependencies) 和宽依赖(Wide Dependencies)窄依赖每个父RDD的分区都至多被一个子RDD的分区使用父RDD与子RDD的关系为1 对 1(一个父RDD对应一个子RDD) 或者 n 对 1(多个父RDD对应一个子RDD)比如 map 、filter 、 union宽依赖多个子R...

2018-08-11 01:18:00 291

转载 spark编程模型（二）之RDD分区

一、RDD分区的含义RDD 内部的数据集合在逻辑上和物理上被划分成多个子集合分布到集群的节点中，这样的每一个子集合我们将其称为分区(Partitions)分区个数的多少涉及对该RDD进行并行计算的粒度spark会为每个分区起一个单独的任务进行计算，因此并行任务的个数，也是由分区的个数决定的分区是一个逻辑概念，变换前后的新旧分区在物理上可能是同一块内存或存储，这种优化防止函数式不...

2018-08-11 01:16:00 284

转载 spark编程模型（一）之RDD的类型

spark中的RDD操作类型可以分为四类：创建操作（creation）、转换操作（transformation）、控制操作（control）、行为操作（action）创建操作(Creation Operation)主要用于创建RDD。创建RDD的两种方法，一种是parallelize或者makeRDD一个已存在的集合，另一种是在外部存储系统（比如HDFS、HBASE）中引用一个数据...

2018-08-11 01:16:00 1403

转载 spark分析某国气象站平均气温实例

一、数据集分析数据文件按照气象站和日期进行组织，每个气象站都是一个总目录，而且每个气象站下面从 1980 年到 2010 年，每一年又都作为一个子目录。因为某国有成千上万个气象站，所以整个数据集由大量的小文件组成。通常情况下，处理少量的大型文件更容易、更有效，因此，这些数据需要经过预处理，将每个气象站的数据文件拼接成一个单独的文件。预处理过的数据文件示例如下所示：30yr_031...

2018-08-11 01:13:00 2488

转载 spark查找相同字母组成的字谜实例

项目需求一本英文书籍包含成千上万个单词，现在我们需要在大量的单词中，找出相同字母组成的所有单词数据集数据集下载点击这里实现分析观察数据集的数据，可以知道：每行是一个单词word，这样我们就可以将这个单词转成一个字符数组Array[char]，然后对这个数组进行排序，再将排序后的字符数组组装成一个新的单词sortWord作为K，原单词word作为V，组成<K, V>的...

2018-08-11 01:12:00 277

转载 spark自定义分区实例

数据准备数据集下载点击这里数据格式说明//视频名称视频网站播放量收藏数评论数踩数赞数川东游击队 3 2713 0 0 0 0视频网站中数字所代表的的网站：1优酷2搜狐3土豆4爱奇艺5迅雷看看实例需求将相同的视频网站类型的数据放到同一个分区，以便可以按网站类别进行统计每个电视剧的每个指标的总量实例步骤自定义一个分区类，继承Parti...

2018-08-11 00:59:00 171

转载 spark多文件输出实例

实例需求统计每个月每个家庭成员给自己打电话的次数，并按月份输出到不同文件中数据集数据集下载点击这里数据格式：编号联系人电话号码日期思路分析map阶段：将联系人 + 电话号码 + 日期中的月份组合成的作为 key，value为1reduce阶段：相同key做value相加操作，然后利用hadoop的MultipleTextOutputFormat，实现按月份将不同月...

2018-08-11 00:59:00 390

转载 Hive 与 SparkSQL 整合

配置文件的整合集群中已安装hive的情况将$HIVE_HOME/conf下的hive-site.xml拷贝到$SPARK_HOME/conf中，即可集群中未安装hive的情况在$SPARK_HOME/conf创建一个hive-site.xml，再对xml文件配置一下可以访问的metadata即可对应metadata的数据库驱动将对应数据库的驱动放于$SPARK_HO...

2018-08-10 23:49:00 102