
Hadoop
Hello Hadoop
卜塔
但行好事,莫问前程
展开
-
【HDFS】hdfs与fsck结合使用
1.获取全部参数[hadoop@node01 ~]$ hdfs fsckUsage: DFSck <path> [-list-corruptfileblocks | [-move | -delete | -openforwrite] [-files [-blocks [-locations | -racks]]]] [-maintenance] <path...原创 2020-01-07 21:15:53 · 431 阅读 · 0 评论 -
【HDFS】HDFS与dfsadmin结合使用
1.获取所有参数[hadoop@node01 ~]$ hdfs dfsadminUsage: hdfs dfsadminNote: Administrative commands can only be run as the HDFS superuser. [-report [-live] [-dead] [-decommissioning]] [-saf...原创 2020-01-07 20:59:06 · 571 阅读 · 0 评论 -
【HDFS】HDFS与getconf结合使用,获取配置信息
1.获取所有参数[hadoop@node01 ~]$ hdfs getconfhdfs getconf is utility for getting configuration information from the config file.hadoop getconf [-namenodes] gets list of nam...原创 2020-01-07 20:55:27 · 1651 阅读 · 0 评论 -
【HDFS】HDFS操作命令
1.上传文件#用法:hdfsdfs-put/本地路径/hdfs路径hdfsdfs-put/linux本地磁盘文件/hdfs路径文件hdfsdfs-copyFromLocal/linux本地磁盘文件/hdfs路径文件#跟put作用一样hdfsdfs-moveFromLocal/linux本地磁盘文件/hdfs路径文件#跟put作用一样,只不过,源文...原创 2020-01-07 20:46:46 · 360 阅读 · 0 评论 -
【Yarn】工作机制及任务提交流程
本文以mr程序为例,解释yarn的工作机制及任务提交流程:0. mr程序提交任务到客户端所在节点;1.节点上的YarnRunner向ResourceManager申请一个Application;2. ResourceManager会把Application资源路径及application_id返回YarnRunner;3. 该程序将job运行所需资源提交到HDFS;4. 资源提交完毕后,...原创 2020-02-08 10:33:43 · 1662 阅读 · 1 评论 -
【MapReduce】MapReduce工作机制
一个mapreduce作业,一般分为两阶段执行:map阶段和reduce阶段,下面分别对这两阶段进行介绍。Map阶段Map阶段又分为五部分:读取文件阶段,MapTask阶段,collect阶段,溢写阶段,combine阶段。首先客户端把待处理文件分片信息、jar包信息、参数信息等提交到HDFS。然后Yarn集群接受任务,启动AppMaster把任务分配NodeManager,并由NodeM...原创 2020-02-09 00:44:53 · 584 阅读 · 0 评论 -
【MapReduce】编程指导思想
MapReduce编程思想共分为8步:map阶段:2步shuffle阶段:4步reduce阶段:2步Map阶段第一步: 设置inputFormat类,将数据切分为k-v对,输入到第二步;第二步:自定义map逻辑,处理第一步中生成的k-v对,然后转换成新的的k-v进行输出;Shuffle阶段第三步:对输出的k-v进行分区,相同k的数据发往同一个reduce,相同k合并,v形成一个集合...原创 2020-02-08 16:24:13 · 380 阅读 · 0 评论 -
【Hadoop2.6】Yarn中任务调度器
概述Yarn中有三种任务调度器:FIFO调度器(FIFO Scheduler)、容量调度器(Capacity Scheduler)、公平调度器(Fair Scheduler)。任务调度器介绍1.FIFO调度器FIFO调度器将应用放在一个队列里,按照“先进先出”的原则为应用分配资源。优点:简单易用,不需要任何配置;缺点:不适合共享集群。大应用占用集群所有资源,所以每个应用只能...原创 2020-01-17 11:43:34 · 407 阅读 · 0 评论 -
【Hadoop】MapReduce
MapReduce是一个分布式计算框架,支持编写程序处理大数据集。Hadoop 0.20.0以及之前版本,MapReduce由JobTracker和TaskTracker组成。JobTracker是运行在主节点上的后台进程,监听各个TaskTracker发来的心跳,包括资源使用情况和任务运行情况等信息。TaskTracker是运行在从节点上的进程,它一方面将本地节点上各个任务的状态通过心跳,周原创 2018-01-09 22:49:00 · 362 阅读 · 0 评论 -
【Hadoop】HDFS数据复制
为了保证存储文件的可靠性,HDFS把文件分解成多个序列块,并保存数据块的多个副本。这对容错非常重要,当文件的一个数据块损坏时,可以从其他节点读取数据块副本。HDFS有“机架感知”策略放置文件副本,因为同一机架的带宽大于跨机架的带宽,所以在一个复制因子默认为3的系统中,HDFS会把备份一份保存在本地节点,另外一份保存在同一机架的其他节点,最后一份保存在其他机架节点,这样既保证了文件安全性,又能提高写原创 2018-01-08 23:18:35 · 4396 阅读 · 0 评论 -
【Hadoop】HDFS基本命令
1. 创建目录[grid@master ~]$ hadoop fs -mkdir /test2. 查看文件列表[grid@master ~]$ hadoop fs -ls /Found 3 itemsdrwxr-xr-x - grid supergroup 0 2018-01-08 04:37 /testdrwx------ - grid supergroup原创 2018-01-17 22:11:38 · 441 阅读 · 0 评论 -
【Hadoop】同步集群时间
转载:hadoop集群时间同步测试环境:192.168.217.130 master master.hadoop192.168.217.131 node1 node1.hadoop192.168.217.132 node2 node2.hadoop一、设置master服务器时间查看本地时间和时区[root@master ~]# dateMon Feb 27 09:54:09 CST 2017选择时原创 2018-01-17 21:14:42 · 1725 阅读 · 0 评论 -
【Hadoop】安装Apache Hadoop
一、环境介绍本篇博客介绍手工安装Apache Hadoop的过程,建立VMware上建立三台Linux虚拟机,每台硬盘20G,内存1G。1. 环境版本操作系统:CentOS 6.7Java版本:jdk-7u79-linux-x64.tarHadoop版本:hadoop-2.7.52. 主机规划192.168.56.101 master192.原创 2018-01-05 23:26:26 · 527 阅读 · 0 评论 -
【Hadoop】HDFS三组件:NameNode、SecondaryNameNode和DataNode
HDFS主要由三个组件构成,分别是NameNode、SecondaryNameNode和DataNode,其中NameNode和SecondaryNameNode运行在master节点上,DataNode运行在slave节点上。HDFS架构如下图:1. NameNodeNameNode管理HDFS文件系统的命名空间,它维护文件系统树及树中的所有文件和目录。同时NameNode也原创 2018-01-08 22:28:00 · 5795 阅读 · 0 评论 -
【Hadoop】Hadoop生态圈基本组件介绍
1. HDFSHDFS(Hadoop分布式文件系统)源于Google在2003年10月发表的GFS论文,HDFS是GFS的实现。HDFS通过流式数据访问,适合大数据集访问的应用程序。HDFS有一次写入多次读取的机制,数据已块的形式,同时分布在集群的不同物理机器上。2. MapReduceMapReduce(分布式计算框架)源于Google在2004年12月发表的MapReduce论文,原创 2018-01-07 09:59:58 · 4328 阅读 · 0 评论 -
【Hadoop】新旧Java MapReduce API的差异
Hadoop在0.20.0版本中第一次使用新的API,部分早期的0.20.0版本不支持使用旧的API,但在接下来的1.x和2.x版本中新旧API都可以使用。新旧API的差异主要有以下几点:1. 新API倾向于使用虚类,而不是接口,因为更有利于扩展。在旧的API中使用Mapper和Reducer接口,而在新的API中使用虚类。2. 新的API放在org.apache.hadoop.map原创 2017-10-25 07:02:36 · 506 阅读 · 0 评论