
Hadoop/MapReduce实战
文章平均质量分 91
努力的凹凸曼
这个作者很懒,什么都没留下…
展开
-
Hadoop实战项目:小文件合并
项目背景 在实际项目中,输入数据往往是由许多小文件组成,这里的小文件是指小于HDFS系统Block大小的文件(默认128M),早期的版本所定义的小文件是64M,这里的hadoop-2.2.0所定义的小文件是128M。然而每一个存储在HDFS中的文件、目录和块都映射为一个对象,存储在NameNode服务器内存中,通常占用150个字节。 如果有1千万个文件,就需要消耗大约3G的内存空间。如果是10...原创 2018-03-30 20:40:02 · 8083 阅读 · 9 评论 -
通过Maven管理多个MapReduce项目
1. 配置Maven环境 首先检查Windows是否配置了maven,进入cmd命令行,输入mvn -version命令,如果出现下图所示的 情形则表示满意配置maven。 从浏览器进入maven官网,下载maven压缩包:http://maven.apache.org/download.cgi。下载完后将其解压的一个自定义目录,然后配置环境变量。 进入环境变量配置页面,新建一个MAVEN...原创 2018-04-25 11:37:07 · 453 阅读 · 0 评论 -
MapReduce实战项目:查找相同字母组成的字谜
实战项目:查找相同字母组成的字谜项目需求:一本英文书籍中包含有成千上万个单词或者短语,现在我们要从中找出相同字母组成的所有单词。数据集和期望结果举例:思路分析: 1)在Map阶段,对每个word按字母进行升序(或降序)排序生成sortWord,然后输出key/value键值对(sortWord, word)。 2)在Reduce阶段,统计出每组根据相同字母组成的所有anahrams(字谜)。 ...原创 2018-03-29 10:04:53 · 830 阅读 · 0 评论 -
MapReduce项目之气温统计
这一批博文是博主由博客园搬移过来的,所以时间上可能存在混乱,希望大家见谅! 在本博文中,我们要学习一个挖掘气象数据的程序。气象数据是通过分布在美国全国各地区的很多气象传感器每隔一小时进行收集,这些数据是半结构化数据且是按照记录方式存储的,因此非常适合使用 MapReduce 程序来统计分析。 我们使用的数据来自美国国家气候数据中心、美国国家海洋和大气管理局(简称 NCDCNOAA),这些数据按...原创 2018-03-27 11:24:31 · 2456 阅读 · 0 评论 -
Hadoop实战:用Hadoop处理Excel通话记录
项目需求 有博主与家庭成员之间的通话记录一份,存储在Excel文件中,如下面的数据集所示。我们需要基于这份数据,统计每个月每个家庭成员给自己打电话的次数,并按月份输出到不同文件夹。数据集 下面是部分数据,数据格式:编号 联系人 电话 时间。 项目实现 首先,输入文件是Excel格式,我们可以借助poi jar包来解析Excel文件,如果本地没有可以下载:poi-3.9.jar 和 poi-e...原创 2018-04-12 10:19:37 · 4798 阅读 · 10 评论 -
Hadoop实战:微博数据分析
项目需求 自定义输入格式,将明星微博数据排序后按粉丝数 关注数 微博数 分别输出到不同文件中。数据集 下面是部分数据,猛戳此链接下载完整数据集 数据格式: 明星 明星微博名称 粉丝数 关注数 微博数 黄晓明 黄晓明 22616497 506 2011 张靓颖 张靓颖 ...原创 2018-04-14 21:29:32 · 2984 阅读 · 1 评论 -
在Eclipse下搭建Hadoop开发环境
这一批博文是博主由博客园搬移过来的,所以时间上可能存在混乱,希望大家见谅! 在前面的博文中博主展示了如何在虚拟机中搭建Hadoop的单节点伪分布集群,今天给大家介绍一下如何在Eclipse环境中搭建Hadoop的管理和开发环境,话不多说,下面我们就进入正题吧!1.JDK安装配置 如果还没有安装Eclipse的朋友们需要先安装并配置好JDK,再下载安装Eclipse,这些我相信大家走到这一步的时...原创 2018-03-27 11:21:25 · 1012 阅读 · 0 评论 -
MapReduce编程入门实例之WordCount:分别在Eclipse和Hadoop集群上运行
这一批博文是博主由博客园搬移过来的,所以时间上可能存在混乱,希望大家见谅!上一篇博文如何在Eclipse下搭建Hadoop开发环境,今天给大家介绍一下如何分别分别在Eclipse和Hadoop集群上运行我们的MapReduce程序!1. 在Eclipse环境下运行MapReduce程序(WordCount程序) 首先看一下我的项目结构和WordCount程序: 其中word.txt将作为我们测...原创 2018-03-27 11:22:47 · 689 阅读 · 0 评论 -
MapReduce实战:邮箱统计及多输出格式实现
紧接着上一篇博文我们学习了MapReduce得到输出格式之后,在这篇博文里,我们将通过一个实战小项目来熟悉一下MultipleOutputs(多输出)格式的用法。项目需求: 假如这里有一份邮箱数据文件,我们期望统计邮箱出现次数并按照邮箱的类别,将这些邮箱分别输出到不同文件路径下(MultipleOutputs)。数据集示例如下所示。 wolys@21cn.com zss1984@12...原创 2018-04-02 11:03:58 · 560 阅读 · 0 评论 -
MapReduce的输出格式
1. OutputFormat接口 OutputFormat为输出格式接口,主要用于描述输出数据的格式,它能将输出的键值对写入特定格式的文件中。输出格式的层次结构如下 2. 文本输出 Hadoop默认的输出格式为文本输出格式TextOutputFormat,其键和值可以使任意类型的,因为该输出方式会调用toString()方法将它们转化为字符串。每个键/值对由制表符进行分割,当然也可以设定 m...原创 2018-04-01 13:15:25 · 653 阅读 · 0 评论 -
MapReduce实战:自定义输入格式实现成绩管理
1. 项目需求 我们取有一份学生五门课程的期末考试成绩数据,现在我们希望统计每个学生的总成绩和平均成绩。 样本数据如下所示,每行数据的数据格式为:学号、姓名、语文成绩、数学成绩、英语成绩、物理成绩、化学成绩。19020090040 秦心芯 123 131 100 95 10019020090006 李磊 99 92 100 90 10019020090017 唐一建 90 99 1...原创 2018-03-31 20:52:45 · 413 阅读 · 0 评论 -
Hadoop实战:明星搜索指数统计,找出人气王
项目介绍 本项目我们使用明星搜索指数数据,分别统计出搜索指数最高的男明星和女明星。 数据集 明星搜索指数数据集,如下图所示。猛戳此链接下载数据集 思路分析 基于项目的需求,我们通过以下几步完成: 1、编写 Mapper类,按需求将数据集解析为 key=gender,value=name+hotIndex,然后输出。 2、编写 Combiner 类,合并 Ma...原创 2018-05-12 11:01:22 · 847 阅读 · 0 评论