
Spark&&Hadoop
KayLa-JL
人不是生来被打败的!
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
影响Spark输出RDD分区的操作函数
1. 会影响到Spark输出RDD分区(partitioner)的操作cogroup, groupWith, join, leftOuterJoin, rightOuterJoin, groupByKey, reduceByKey, combineByKey, partitionBy, sort, mapValues(如果父RDD存在partitioner), flatMapValues(原创 2017-03-18 14:08:47 · 460 阅读 · 0 评论 -
图解Spark Transformation算子
0. 写在前面Spark总共有两类算子,分别是Transformation算子和Action算子。Transformation算子变换不触发提交作业,而Action算子会触发SparkContext提交Job作业,下面主要使用pySpark API来作为事例,图解Spark的Transformation算子。1. countByKey# countByKeyx原创 2017-03-18 14:11:20 · 903 阅读 · 0 评论 -
Spark和Hadoop之间的关系
Spark与Hadoop关系Spark是一个计算框架Hadoop是包含计算框架MapReducehe分布式文件系统HDFS。 Spark是MapReduce的替代方案,而且兼容HDFS、Hive等分布式存储系统,可融入Hadoop生态。 Spark与Hadoop MapReduce优势如下1 中间结果输出 MapR原创 2017-08-11 09:57:30 · 8655 阅读 · 0 评论