
mapreduce
文章平均质量分 77
ZoeYen_
这个作者很懒,什么都没留下…
展开
-
mapreduce剖析气象站平均气温
一、气象数据按行并以 ASCII 格式存储,每一行是一条记录。下图展示了一行采样数据。1998 #year03 #month09 #day17 #hour11 #temperature-100 #dew10237 #pressure60原创 2018-01-03 15:08:22 · 2208 阅读 · 0 评论 -
通过五个视频网站数据,分析统计节目受欢迎度
一、需求 自定义输入格式 完成统计任务 输出多个文件输入数据:5个网站的 每天电视剧的 播放量 收藏数 评论数 踩数 赞数输出数据:按网站类别 统计每个电视剧的每个指标的总量任务目标:自定义输入格式 完成统计任务 输出多个文件二、数据部分数据三、思路第一步:定义一个电视剧热度数据的bean。第二步:定义一个读取热度数据的InputFormat类。第三步:写原创 2018-01-12 18:32:28 · 4180 阅读 · 0 评论 -
【笔记】Mapreduce数据倾斜与优化
一、数据倾斜数据分布:正常的数据分布理论上都是倾斜的,就是我们所说的20-80原理:80%的财富集中在20%的人手中, 80%的用户只使用20%的功能 , 20%的用户贡献了80%的访问量 。1.产生原因: Mapreduce程序在运行的时候,运行了大部分,但是还有部分reduce还在运行,甚至长时间运行,最终导致整个程序运行时间很长才结束。造成这种现象的主要原因是:reduce程序处理的key的原创 2017-12-28 22:54:30 · 1149 阅读 · 0 评论 -
查找相同字母组成的字谜
一、背景一本英文书籍包含成千上万个单词或者短语,现在我们需要在大量的单词中,找出相同字母组成的所有anagrams(字谜)。二、数据部分数据展示三、思路分析1、在 Map 阶段,对每个word(单词)按字母进行排序生成sortedWord,然后输出key/value键值对(sortedWord,word)。2、在 Reduce 阶段,统计出每组相同字母组成的所有anagrams(字谜)。四、代码实现原创 2018-01-04 00:03:09 · 1211 阅读 · 0 评论 -
mapreduce二次排序
一、二次排序发生在需要对 Key 排序的同时再对 Value 进行排序的情况下。 主要分为以下几个阶段:Map 起始阶段在Map阶段,使用 job.setInputFormatClass() 定义的 InputFormat ,将输入的数据集分割成小数据块 split,同时 InputFormat 提供一个 RecordReader的实现。本课程中使用的是 TextInputFormat,原创 2018-01-14 18:20:26 · 623 阅读 · 0 评论 -
自定义InputFormat格式统计学生的平均成绩和总成绩
一、详情介绍 有时候 Hadoop 自带的输入格式,并不能完全满足业务的需求,所以需要根据实际情况自定义 InputFormat 类。而数据源一般都是文件数据,因此自定义 InputFormat时继承 FileInputFormat 类会更为方便,不必考虑如何分片等复杂操作。 自定义输入格式一般分为以下几步:1、继承 FileInputFormat 基类。2、重写 FileInpu原创 2018-01-08 21:47:20 · 746 阅读 · 0 评论 -
统计明星的搜索指数
一、目的根据给出的数据样本,统计出搜索指数最高的男明星和女明星。二、思路分析1.编写 Mapper类,将数据集解析为 key=gender,value=name+hotIndex,然后输出。 2.编写 Combiner 类,合并 Mapper 输出结果,然后输出给 Reducer。 3.编写 Partitioner 类,按性别,将结果指定给不同的 Reduce 执行。 4.编写原创 2018-01-18 16:57:10 · 1366 阅读 · 0 评论