
MapReduce
今夕何夕-l
这个作者很懒,什么都没留下…
展开
-
MapReduce之Partition分区实例操作
1.需求: 将统计结果按照手机归属地不同省份输出到不同文件中(分区) 2.案例数据: phone_data.txt 如下: 1363157985066 13726230503 00-FD-07-A4-72-B8:CMCC 120.196.100.82 i02.c.aliimg.com 24 27 2481 24681 200 1363157995052 13826544101 5C-0E-8B-C7-F1-E0:CMCC 120.197.40.4 4 0 264 0 200 13631579910原创 2020-09-28 14:47:36 · 932 阅读 · 0 评论 -
MapReduce优化方法
MapReduce 优化需要考虑的点 Mapreduce 程序效率取决于以下几点: 1.计算机性能 CPU、内存、磁盘健康、网络 2.I/O 操作优化 (1)数据倾斜 (2)map 和 reduce 数设置不合理 (3)map 运行时间太长,导致 reduce 等待过久 (4)小文件过多 (5)大量的不可分块的超大文件 (6)spill 次数过多 (7)merge 次数过多等。 MapReduce 优化方法 1.数据输入: 合并小文件:在执行 mr 任务前将小文件进行合并,大量的小文件会产生大量的 map原创 2020-09-28 15:20:39 · 285 阅读 · 0 评论 -
MapReduce之使用序列化 Bean 对象统计流量信息
1.需求: 给定的文件中是手机流量信息,统计每一个手机号耗费的总上行流量、下行 流量、总流量。 2.案例数据: phone_data.txt 数据如下: 1363157985066 13726230503 00-FD-07-A4-72-B8:CMCC 120.196.100.82 i02.c.aliimg.com 24 27 2481 24681 200 1363157995052 13826544101 5C-0E-8B-C7-F1-E0:CMCC 120.197.40.4 4 0 264 0原创 2020-09-28 14:02:19 · 395 阅读 · 0 评论 -
Hadoop生态系统框架详解(三):MapReduce框架
MapReduce入门 1.概念: Mapreduce是一个分布式运算程序的编程框架,是用户开发“基于hadoop的数据分析应用”的核心框架; Mapreduce核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序,并发运行在一个hadoop集群上。 2.优点: ①MapReduce 易于编程:它简单的实现一些接口,就可以完成一个分布式程序,这个分布式程序可以分布到大量廉价的 PC 机器运行。也就是说你写一个分布式程序,跟写一个简单的串行程序是一模一样的。 就是因为这个特点使得 M原创 2020-09-27 11:35:44 · 524 阅读 · 0 评论 -
MapReduce之实现WordCount案例
1.需求 统计一个文件中每一个单词出现的总次数。 2.案例数据 wordcount.txt文件如下 hello world MapReduce hadoop world Yarn hello hadoop Hdfs 3.分析 分别编写自定义 Mapper,Reducer,Driver。 (1)Mapper类逻辑处理: ①将 map 端输入为内容转换为 String 类型。 ②根据文件内容分隔符(空格)将每一行切分成单词。 ③Map 端输出数据的<K,V>格式为<word,1>原创 2020-09-28 11:29:52 · 461 阅读 · 0 评论