大数据-Hadoop
文章平均质量分 84
rong_code
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Windows 下配置hadoop
0.自己编译安装步骤在这里,有英文版本链接:《英文传送门》。自己编译尝试后不成功,换为下面使用别人编译好的版本的方法。参考博客:《初学hadoop,windows下安装》1.下载JDK,并设置JAVA_HOME。(使用不带空格的路径,比如Program Files,将在后面的配置中报错!)假设JAVA_HOME路径为C:\Java\jdk1.8.0_732.下载ha...原创 2020-03-28 18:04:17 · 508 阅读 · 0 评论 -
大数据01---Linux环境安装
第一部分:Linux环境安装第一步、配置Vmware NAT网络一、Vmware网络模式介绍参考:http://blog.youkuaiyun.com/collection4u/article/details/14127671二、Vmware上安装Linux系统1、 文件菜单选择新建虚拟机2、 选择经典类型安装,下一步。3、 选择稍后安装操作系统,下一步。4、 选择Linux系统,版本选择Ce...原创 2018-12-26 19:41:43 · 350 阅读 · 0 评论 -
大数据02---Hadoop集群环境搭建
一、修改Hostname命令:[root@hadoop01 ~] vi /etc/sysconfig/network打开文件后,(每个虚拟机主机名不同)NETWORKING=yes #使用网络HOSTNAME=hadoop01 #设置主机名1.赋予虚拟机ip地址根目录下 执行命令: vi reset_ip.shme=$(cat /etc/udev/rul...原创 2018-12-26 20:55:34 · 587 阅读 · 0 评论 -
大数据03---HDFS之那么namenode管理元数据机制
一、NameNode启动时如何维护元数据:1、概念介绍:Edits文件:NameNode在本地操作hdfs系统的文件都会保存在Edits日志文件中。也就是说当文件系统中的任何元数据产生操作时,都会记录在Edits日志文件中。eg:在HDFS上创建一个文件,NameNode就会在Edits中插入一条记录。同样如果修改或者删除等操作,也会在Edits日志文件中新增一条数据。FsImage映像...原创 2018-12-28 19:16:54 · 306 阅读 · 0 评论 -
大数据04---Hadoop windowns intelij 跑MRWordCount
一、软件环境我使用的软件版本如下:Intellij Idea 2017.1 Maven 3.3.9 Hadoop分布式环境二、创建maven工程打开Idea,file->new->Project,左侧面板选择maven工程。(勾选) 设置工程存储路径,下一步。 三、添加maven依赖在pom.xml添加依赖,对于hadoop 2.7.3版本的had...原创 2018-12-28 20:08:21 · 306 阅读 · 0 评论 -
大数据06-MapTask、Shuffle、ReduceTask,yarn工作机制
一、MapReduce整个工作流程: 二、 yarn基本架构和工作机制一、yarn基本架构 (0)Mr 程序提交到客户端所在的节点。(1)Yarnrunner 向 Resourcemanager 申请一个 Application。(2)rm 将该应用程序的资源路径返回给 yarnrunner。(3)该程序将运行所需资源提交到 HDFS 上。(4)程序资源...原创 2019-01-03 18:22:51 · 354 阅读 · 0 评论 -
大数据08-reduce task个数到底和哪些因素有关
1、我们知道map的数量和文件数、文件大小、块大小、以及split大小有关,而reduce的数量跟哪些因素有关呢?设置mapred.tasktracker.reduce.tasks.maximum的大小可以决定单个tasktracker一次性启动reduce的数目,但是不能决定总的reduce数目。conf.setNumReduceTasks(4);JobConf对象的这个方法可以用来设定...原创 2019-01-03 18:40:17 · 2137 阅读 · 1 评论 -
大数据09--MapReduce习题~统计单词数量
一、利用MapReduce计算单词WordcountDriver** * 相当于一个yarn集群的客户端 * 需要在此封装我们的mr程序的相关运行参数,指定jar包 * 最后提交给yarn */public class WordcountDriver { public static void main(String[] args) throws Exception {...原创 2019-01-03 18:54:02 · 727 阅读 · 0 评论 -
大数据05--图示wordcount shuffle过程
本文主要以wordcount为例详细阐述shuffle的实现过程我们知道,HDFS里的文件是分块存放在Datanode上面的,而我们写的mapper程序也是跑在各个节点上的。这里就涉及到一个问题,哪一个节点上的mapper读哪一些节点上的文件块呢?hadoop会自动将这个文件分片(split),得到好多split,这每一个split放到一个节点的一个mapper里面去读。然后在每一台有ma...原创 2019-01-02 20:57:53 · 295 阅读 · 0 评论
分享