
hadoop
文章平均质量分 96
lmh450201598
产品经理
展开
-
Sqoop安装、配置和操作详解
一、安装和配置Sqoop1、开启Zookeeper2、开启集群服务3、配置文件:sqoop-env.sh,如下:#Set path to where bin/hadoop is availableexport HADOOP_COMMON_HOME=/opt/modules/cdh5.3.6/hadoop-2.5.0-cdh5.3.6#Set path to where hadoop-*-core.jar is availableexport HADOOP_MAPRED_HOME=/opt/m原创 2020-05-22 11:57:15 · 1146 阅读 · 0 评论 -
YARN工作机制详解
YARN工作机制图如下(0)Mr程序提交到客户端所在的节点(1)yarnrunner向Resourcemanager申请一个application。(2)rm将该应用程序的资源路径返回给yarnrunner(3)该程序将运行所需资源提交到HDFS上(4)程序资源提交完毕后,申请运行mrAppMaster(5)RM将用户的请求初始化成一个task(6)其中一个NodeManager领...原创 2020-05-08 11:36:25 · 467 阅读 · 0 评论 -
MapReduce程序运行流程详解
一、MapReduce整体运行流程流程示意图如下:(1)在MapReduce程序读取文件的输入目录上存放相应的文件。(2)客户端程序在submit()方法执行前,获取待处理的数据信息,然后根据集群中参数的配置形成一个任务分配规划。(3)客户端提交job.split、jar包、job.xml等文件给yarn,yarn中的resourcemanager启动MRAppMaster。(4)MR...原创 2020-05-07 21:14:27 · 1741 阅读 · 0 评论 -
MapReduce自定义部分详解
1、自定义InputFormat重写RecorderReader2、自定义Mapper3、自定义Partitioner分区4、自定义Key.compareTo排序自定义bean对象,实现comparable接口,重写compareTo方法5、自定义Combiner继承Reduce6、...原创 2020-05-07 18:20:19 · 780 阅读 · 0 评论 -
InputFormat数据切片机制、源代码详解及自定义InputFormat
在MapReduce中,MapTask的并行度决定map阶段的任务处理并发度,进而影响到整个job的处理速度。而一个job的map阶段MapTask并行度(个数),由客户端提交job时的切片个数决定,说白了,有多少个切片,就起多少个MapTask任务。如下图所示:下面,就InputFormat数据切片机制进行详细的说明。一、job提交数据切片的节点以WordCount的Driver程序(W...原创 2020-05-07 16:31:04 · 578 阅读 · 0 评论 -
HDFS中的快照管理和回收站详细教程
一、快照管理快照相当于对目录做一个备份。并不会立即复制所有文件,而是指向同一个文件。当写入发生时,才会产生新文件。1、基本语法(1)hdfs dfsadmin -allowSnapshot 路径 (功能描述:开启指定目录的快照功能)(2)hdfs dfsadmin -disallowSnapshot 路径 (功能描述:禁用指定目录的快照功能,默认是禁用)(3)hdfs dfs -cr...原创 2020-04-28 15:16:08 · 859 阅读 · 0 评论 -
HDFS中Hadoop存档(针对小文件存储)
每个文件均按块存储,每个块的元数据存储在namenode的内存中,因此hadoop存储小文件会非常低效。因为大量的小文件会耗尽namenode中的大部分内存。但注意,存储小文件所需要的磁盘容量和存储这些文件原始内容所需要的磁盘空间相比也不会增多。例如,一个1MB的文件以大小为128MB的块存储,使用的是1MB的磁盘空间,而不是128MB。Hadoop存档文件或HAR文件,是一个更高效的文件存档工...原创 2020-04-28 14:15:08 · 320 阅读 · 0 评论 -
HDFS中DataNode工作机制详解
HDFS集群包括,NameNode和DataNode以及Secondary Namenode。NameNode负责管理整个文件系统的元数据,以及每一个路径(文件)所对应的数据块信息;DataNode 负责管理用户的文件数据块,每一个数据块都可以在多个datanode上存储多个副本。一、DataNode工作机制一个数据块在datanode上以文件形式存储在磁盘上,包括两个文件,一个是数据本身,一...原创 2020-04-28 11:55:56 · 2277 阅读 · 0 评论 -
HDFS中NameNode、Secondary NameNode介绍及工作机制详细教程
HDFS集群包括,NameNode和DataNode以及Secondary Namenode。NameNode负责管理整个文件系统的元数据,以及每一个路径(文件)所对应的数据块信息;DataNode 负责管理用户的文件数据块,每一个数据块都可以在多个datanode上存储多个副本,Secondary NameNode用来监控HDFS状态的辅助后台程序,每隔一段时间获取HDFS元数据的快照。一、N...原创 2020-04-28 10:06:18 · 3480 阅读 · 1 评论 -
HDFS的操作教程(命令行、API和IO流)
一、HDFS命令行操作1、基本语法[root@hadoop102 hadoop-2.7.2]# bin/hadoop fs 具体命令2、常用命令实操(1)-help:输出这个命令参数[root@hadoop102 hadoop-2.7.2]# bin/hdfs dfs -help rm(2)-ls: 显示目录信息[root@hadoop102 hadoop-2.7.2]# had...原创 2020-04-27 11:20:35 · 348 阅读 · 0 评论 -
搭建hadoop集群的详细教程
这里,以搭建3台hadoop服务器的集群为例(更多台的原理是一样的),首先需准备好3台纯净的Linux服务器(用虚拟机克隆即可),并设置好相应的主机名和ip,具体教程见搭建hadoop运行环境的详细教程这里不再赘述。需要注意,为了方便演示,3台服务器的主机名假定分别为hadoop102、hadoop103、hadoop104,企业中真实使用的主机名会比这个要长。1、集群部署规划ha...原创 2020-04-26 17:09:30 · 362 阅读 · 0 评论 -
搭建hadoop运行环境的详细教程
准备一台Linux服务器,用VMware虚拟机即可。1、虚拟机网络模式设置为NAT2、克隆虚拟机(可省略)假设,已经存在一台“hadoop101”的机器,现需新建一个“hadoop102”的机器,并在这台上搭建hadoop运行环境,所以需要去克隆“hadoop101”这台机器,如果是在当前机器(“hadoop101”)搭建,则该步可省略。3、配置静态ip配置这台服务器的IP地址,以配置i...原创 2020-04-26 10:26:56 · 471 阅读 · 0 评论