
Spark
李东要努力
这个作者很懒,什么都没留下…
展开
-
Spark面试题
什么是spark?Apache spark是一个围绕速度、易用性和复杂分析构建的大数据处理框架。是一种基于内存计算的框架,是一种通用的大数据快速处理引擎。这一站式的计算框架,包含了Spark RDD(这也是Spark Core用于离线批处理)、Spark SQL(交互式查询)、Spark Streaming(实时流计算)、MLlib(机器学习)、GraphX(图计算)等重要处理框架。Spa...原创 2020-04-20 09:43:31 · 245 阅读 · 0 评论 -
Spark之groupByKey和reduceByKey的区别
【spark】 常用转换操作:reduceByKey和groupByKey1.reduceByKey(func)功能:使用func函数合并具有相同键的值用scala编写def main(args: Array[String]): Unit = { val sc = new SparkContext(new SparkConf().setAppName("Test3")...原创 2019-12-02 19:01:52 · 332 阅读 · 0 评论 -
spark之sortBy和sortByKey
在很多应用场景都需要对结果数据进行排序,Spark中有时也不例外。在Spark中存在两种对RDD进行排序的函数,分别是 sortBy和sortByKey函数。sortBy是对标准的RDD进行排序,它是从Spark 0.9.0之后才引入的(可以参见SPARK-1063)。而sortByKey函数是对PairRDD进行排序,也就是有Key和Value的RDD。下面将分别对这两个函数的实现以及使用进行说...原创 2019-11-27 19:03:26 · 1301 阅读 · 0 评论