spark
文章平均质量分 70
cuidong008
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
spark 下 wordcount 后 top k
1.加载数据,我的数据时在hdfs的/data/a.txt,也可以加载本地数据 val file=sc.textFile("hdfs:///data/a.txt") 2.wordcount val r=file.flatMap(_.split(" ")).map((_,1)).reduceByKey(_+_) 3.top k,这里共有两种解法 a)解法一,创建case class原创 2015-01-12 17:26:44 · 594 阅读 · 0 评论 -
spark 查找 中位数
基本的想法是, 第一步先partition,把一定范围的数字放入同一个partition 第二步,记录每一个partition的size,可以知道中位数落在哪个partition里面 第三步,把第二部找到的partition进行toArray,然后sort,然后获取中位数,或者不sort,利用的取中位数的函数直接取(后面博客会介绍) 先准备数据: import java.io.Print原创 2015-01-14 17:40:23 · 3355 阅读 · 1 评论
分享