
hadoop
fanzitao
数据挖掘/Java/hadoop/python/shell
展开
-
使用计数器在mapper和reducer之间传递参数
假设要用MR来求一堆数据的平均数,MR求和自然是很简单原创 2014-09-19 19:31:36 · 2433 阅读 · 1 评论 -
Spark使用小结:Java版的GroupByKey示例
Spark Java版的GroupByKey示例感觉reduceByKey只能完成一些满足交换率,结合律的运算,如果想把某些数据聚合到一些做一些操作,得换groupbykey比如下面:我想把相同key对应的value收集到一起,完成一些运算(例如拼接字符串,或者去重)public class SparkSample { private static final Pattern原创 2016-04-22 20:44:47 · 7435 阅读 · 0 评论 -
Spark使用小结:Java版Join操作
实现两组数据的Join操作。第一组:i, i*i第二组:i, 'a'+ijoin之后的结果是:i, i*i, 'a'+ipublic class SparkSample { private static final Pattern SPACE = Pattern.compile(" "); public static void main(String ar原创 2016-04-22 16:32:48 · 5785 阅读 · 0 评论