
MapReduce
爱吃龙虾的饼
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Hadoop-mapreduce案例-GroupingComparator应用-查询订单最大金额
订单数据如下(订单id, 商品id, 成交金额): Order_0000001,Pdt_01,222.8 Order_0000001,Pdt_05,25.8 Order_0000002,Pdt_05,325.8 Order_0000002,Pdt_03,522.8 Order_0000002,Pdt_04,122.4 Order_0000003,Pdt_01,222.8 Order_...转载 2019-04-15 17:00:16 · 391 阅读 · 0 评论 -
Hadoop-MapReduce-运营商原始日志增强(自定义OutputFormat)
1.需求: 现有一些原始日志需要做增强解析处理,流程: 1、从原始日志文件中读取数据(日志文件:https://pan.baidu.com/s/12hbDvP7jMu9yE-oLZXvM_g) 2、根据日志中的一个URL字段到外部知识库中获取信息增强到原始日志 3、如果成功增强,则输出到增强结果目录;如果增强失败,则抽取原始数据中URL字段输出到待爬清单目录 2.需求分析: 程序...转载 2019-04-15 18:22:31 · 173 阅读 · 0 评论 -
Hadoop-MapReduce案例-自定义分区
在Hadoop的MapReduce过程中,每个map task处理完数据后,如果存在自定义Combiner类,会先进行一次本地的reduce操作,然后把数据发送到Partitioner,由Partitioner来决定每条记录应该送往哪个reducer节点,默认使用的是HashPartitioner,其核心代码如下: public class HashPartitioner<K, V&...转载 2019-04-12 16:44:40 · 393 阅读 · 0 评论 -
Hadoop-mapreduce案例-map端join
订单数据orders.txt 1001 pd001 300 1002 pd002 20 1003 pd003 40 1004 pd002 50 商品数据pdts.txt pd001 apple pd002 xiaomi pd003 cuizi 倾斜问题:在电商平台中,买小米手机和买苹果手机的订单数量很多,买锤子手机的订单...转载 2019-04-12 15:58:11 · 316 阅读 · 0 评论 -
Hadoop-mapreduce案例-两表join
订单数据表t_order: id date pid amount 1001 20150710 P0001 2 1002 20150710 P0001 3...转载 2019-04-12 15:39:37 · 295 阅读 · 0 评论 -
Hadoop-mapreduce案例-统计手机上行流量,下行流量,总流量
日志格式如下图,需要的字段,第二列:手机号(用户),倒数第三列:上行流量,倒数第二列:下行流行 思路: 将上行流量,下行流量,总流量封装成一个对象bean,map中context.write(手机号,bean),reduce中对每个用户的流量进行统计。 MapReduce中传输自定义数据类型Bean: (1) 要在Hadoop的各个节点之间传输,就必须实现其序列化机制,实现 Writa...转载 2019-04-12 15:23:23 · 3146 阅读 · 0 评论 -
Hadoop-MapReduce案例-求共同好友
原始文件如下:(冒号前是人名,冒号后是好友的名字) A:B,C,D,F,E,O B:A,C,E,K C:F,A,D,I D:A,E,F,L E:B,C,D,M,L F:A,B,C,D,E,O,M G:A,C,D,E,F H:A,C,D,E,O I:A,O J:B,O K:A,C,D L:D,E,F M:E,F,G O:A,H,I,J 要求:求出哪些人两两之间有共...转载 2019-04-12 14:53:27 · 445 阅读 · 0 评论 -
Hadoop-MapReduce原理过程
MapReduce的定义 Hadoop 中的 MapReduce 是一个使用简单的软件框架,基于它写出来的应用程序能够运行在由上千个商用机器组成的大型集群上,并以一种可靠容错式并行处理TB级别的数据集 mapreduce的优点 1、MapReduce 易于编程 。它简单的实现一些接口,就可以完成一个分布式程序,这个分布式程序可以分布到大量廉价的 PC 机器运行。也就是说你写一个分布式程序,...转载 2019-04-10 16:59:07 · 298 阅读 · 0 评论