
spark
漱冰濯雪
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Spark RDD API
https://blog.youkuaiyun.com/liam08/article/details/79711565 RDD是啥 Resilient Distributed Dataset (RDD),弹性分布式数据集,是对不可修改,分区的数据集合的抽象。 RDD is characterized by five main properties: A list of partition...转载 2019-01-04 14:37:47 · 310 阅读 · 0 评论 -
spark中算子详解:aggregateByKey
https://blog.youkuaiyun.com/jiaotongqu6470/article/details/78457966 通过scala集合以并行化方式创建一个RDD scala> val pairRdd = sc.parallelize(List(("cat",2),("cat",5),("mouse",4),("cat",12),("dog",12),("mouse&转载 2019-01-04 16:36:36 · 1317 阅读 · 3 评论 -
Spark自定义排序
排序规则:先按照年龄排序,年龄小的往前排,年龄如果相同,按照按照作品次数排序 方式一 import org.apache.spark.rdd.RDD import org.apache.spark.{SparkConf, SparkContext} object CustomSortDemo1 { def main(args: Array[String]): Unit = { ...转载 2019-01-10 14:35:33 · 316 阅读 · 0 评论 -
Spark2.x 如何实现自定义排序(利用元组,类--隐式转换Ordering,Ordered等实现)
需求: 对于有复杂排序条件的需求,可以利用自定义排序来实现,同时可以使用多种方案实现自定义排序需求。 对指定的数据(字段分别为:名称 年龄 颜值,数据以空格分割),按照指定的要求排序,排序要求为:根据颜值降序,如果颜值相同,再按照年龄升序排序。 示例数据: "pp 30 85", "dd 18 100", "taoge 35 100", "laozhao 30 120", "huge 2...原创 2019-01-10 14:52:06 · 929 阅读 · 0 评论 -
Spark配置参数
http://blog.javachen.com/2015/06/07/spark-configuration.html 以下是整理的Spark中的一些配置参数,官方文档请参考Spark Configuration。 Spark提供三个位置用来配置系统: Spark属性:控制大部分的应用程序参数,可以用SparkConf对象或者Java系统属性设置 环境变量:可以通过每个节点的 conf/...转载 2019-01-14 17:06:31 · 908 阅读 · 0 评论