
数据算法
acm160920007
这个作者很懒,什么都没留下…
展开
-
数据算法(二次排序):对温度数据排序
二次排序针对归约阶段对与某个键关联的值排序 MapReduce 框架会自动对映射器生成的键完成排序,在启动归约器之前,映射器生成的中间键-值对必然时按键有序的,值不是有序的。 如下例子:考虑一个可惜实验得到的温度数据。包括year,month,day 和当天温度temperature 2012,01,01,5 2000,12,04,10 2000,11,01,20 200...原创 2018-08-03 16:31:47 · 1714 阅读 · 0 评论 -
数据算法(TopN) :MapReduce+Spark(java)实现(键唯一情况)
MapReduce实现Driver类package cn.weida.MapReduce.ToN;import org.apache.hadoop.conf.Configured;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.IntWritable;import org.apache.hadoop.io...原创 2018-08-09 11:19:09 · 854 阅读 · 0 评论 -
数据算法(TopN) :Spark+Spark(takeOrdered)实现(非键唯一情况)
package cn.weida.Spark.TopNNonUnique;import java.util.Collections;import java.util.Iterator;import java.util.List;import java.util.Map;import java.util.SortedMap;import java.util.TreeMap;imp...原创 2018-08-09 13:35:18 · 845 阅读 · 0 评论 -
数据算法 (MapReduce步骤)
//1.设置输入文件PathPath inputPath = new Path(args[0]);//2.设置输入文件FileInputFormat.setInputPaths(job, inputPath);//3.设置输入文件格式job.setInputFormatClass(SequenceFileInputFormat.class);//4.设置mapjob.setMappe...原创 2018-08-10 14:35:23 · 321 阅读 · 0 评论 -
数据算法 (二次排序):Spark+Scala语言实现
之前用到的是MapReduce 解决二次排序问题,另一种实现方式是利用Spark实现,就简单多了我们考虑如下数据:y,2,5x,1,3y,1,7y,1,1y,3,1x,3,6z,1,4z,2,8z,3,7z,4,0p,2,6p,4,7p,1,9p,6,0p,7,3我们希望最终结果是这样 :首先按字母排序,然后按第一个数字,最后按第三个数字排序imp...原创 2018-08-07 09:13:27 · 390 阅读 · 0 评论