
hadoop
文章平均质量分 91
hadoop
weixin_42868638
这个作者很懒,什么都没留下…
展开
-
HA+Federation集群实现(七)
集群规划配置步骤1、core-site.xml1)整合Federation和HA的配置2、hdfs-site.xml1)添加新增节点配置3、启动服务1)zookeeper2)journalnode3)datanode4)namenode5)zkfc实施步骤在原有的ha基础上进行配置,即基于《基于ZK自动切换模式的实现(六)》的基础之上进行配置1)停...转载 2019-05-28 17:19:36 · 336 阅读 · 0 评论 -
Hadoop3.2.0 HDFS中的集中缓存管理
HDFS中的集中缓存管理概述 用例 建筑 概念 缓存指令 缓存池 cacheadmin命令行界面 缓存指令命令 addDirective removeDirective removeDirectives listDirectives 缓存...转载 2019-04-18 08:30:09 · 149 阅读 · 0 评论 -
Hadoop3.2.0 HDFS磁盘平衡器
概述 建筑 命令 计划 执行 询问 取消 报告 设置 调试概述Diskbalancer是一个命令行工具,可以在datanode的所有磁盘上均匀分配数据。此工具与Balancer不同, 后者负责集群范围的数据平衡。由于多种原因,数据在节点上的磁盘之间...转载 2019-04-22 14:50:24 · 360 阅读 · 1 评论 -
Hadoop3.2.0 HDFS DataNode管理员指南
概观 主机级设置 仅限主机名配置 基于JSON的配置 群集级别设置 度量概观Hadoop分布式文件系统(HDFS)名称节点维护所有数据节点的状态。有两种类型的状态。第一种类型描述了datanode的活跃性,指示节点是活的,死的还是陈旧的。第二种类型描述了管理状态,指示节点...转载 2019-04-22 14:41:38 · 350 阅读 · 0 评论 -
Hadoop3.2.0 HDFS权限指南
概述 用户身份 组映射 许可检查 了解实施 对文件系统API的更改 对应用程序外壳的更改 超级用户 Web服务器 ACL(访问控制列表) ACL文件系统API ACL Shell命令 配置参数概述Hadoop分布式文件系统(HDFS)实现了共享大部分POSIX模型...转载 2019-04-17 15:41:52 · 514 阅读 · 0 评论 -
Hadoop3.2.0 HDFS 快照
HDFS快照概观<ul><li><span style="color:#000000;"><a href="#Snapshottable_Directories" rel="nofollow" target="_self">Snapshot...转载 2019-04-17 15:11:34 · 170 阅读 · 0 评论 -
HDFS快照
Hdfs的快照(snapshot)是在某一时间点对指定文件系统拷贝,快照采用只读模式,可以对重要数据进行恢复、防止用户错误性的操作。快照分两种: 一种是:建立文件系统的索引,每次更新文件不会真正的改变文件,而是新开辟一个空间用来保存更改的文件, 一种是:拷贝所有的文件系统。Hdfs属于前者。 Hdfs的快照的特征如下: 快照的创建是瞬间的,代价为O(1),取决于子节点扫描文件目录的时...转载 2019-04-17 15:08:10 · 1451 阅读 · 0 评论 -
Hadoop3.2.0 HDFS Federation
背景 多个名称节点/命名空间 主要优点 联合配置 组态: 格式化名称节点 从旧版本升级并配置联合 将新Namenode添加到现有HDFS集群 管理集群 启动和停止集群 平衡器 退役 群集Web控制台 本指南概述了HDFS联邦功能以及如何配置和管...转载 2019-04-17 11:18:11 · 150 阅读 · 0 评论 -
Hadoop3.2.0 HDFS HA ( NFS)
目的 注意:使用Quorum Journal Manager或常规共享存储 背景 建筑 硬件资源 部署 配置概述 配置细节 部署细节 管理命令 自动故障转移 介绍 组件 部署ZooKeeper 在你开始之前 配置自动故障转移 在ZooKee...转载 2019-04-17 11:03:46 · 219 阅读 · 0 评论 -
Hadoop3.2.0 HDFS HA ( Quorum Journal Manager )
目的 注意:使用Quorum Journal Manager或常规共享存储 背景 架构 硬件资源 部署 配置概述 配置细节 部署细节 管理命令 负载均衡器设置 自动故障转移 介绍 组件 部署ZooKeeper 在你开始之前 配...转载 2019-04-17 11:00:17 · 427 阅读 · 0 评论 -
Hadoop2.7实战v1.0之start-balancer.sh与hdfs balancer数据均衡
转发:http://www.aboutyun.com/thread-17612-1-1.html适用场景:a.当动态添加或者删除集群的数据节点,必然会使各节点的数据不均衡b.当正常维护时1.对hdfs负载设置均衡,因为默认的数据传输带宽比较低,可以设置为64M,即hdfs dfsadmin -setBalancerBandwidth 67108864即可[root@sht-sgmhad...转载 2019-05-27 15:36:05 · 2669 阅读 · 0 评论 -
ViewFs Guide
简介文件浏览系统(ViewFs)提供了一个管理多个Hadoop文件系统命名空间(或者叫Namespace Volume)的方式。它对于有多个NameNode的联邦集群特别有用。ViewFs与Unix/Linux系统中client side mount tables类似。ViewFs可...转载 2019-05-30 09:56:27 · 166 阅读 · 0 评论 -
基于ZK自动切换模式的实现(六)
配置自动切换模式(1)配置zookeeper集群(2)开启自动切换模式在hdfs-site.xml中配置dfs.ha.automatic-failover.enabled参数(3)配置zookeeper实例在core-site.xml中配置ha.zookeeper.quorum(4)初始化zookeeper(5)启动journalnode,namenode和datano...转载 2019-05-28 17:14:33 · 269 阅读 · 0 评论 -
Hadoop HA架构剖析
转载:http://www.pianshen.com/article/3250343691/Hadoop HA架构即 Hadoop 高可用架构,7*24小时不中断服务。实现高可用最关键的是消除单点故障。Hadoop HA 严格来说应该分成各个组件的HA机制——HDFS的HA、YARN的HA。HDFS HANameNode与命名空间HDFS是通过双namenode消除单点故障(实时的,任何时...转载 2019-05-28 09:18:24 · 123 阅读 · 0 评论 -
使用QJM构建HDFS HA架构(五)
集群规划,在以前的文档中我已经搭建好一个hadoop2.6.0的非集群环境,我们就在这个基础之上搭建HAQJM的集群实现方式一操作系统的基本配置(可以参考hadoop2.6.0三个节点集群环境搭建(一))二Hadoop的安装(可以参考hadoop2.6.0三个节点集群环境搭建(一))三hdfs-site.xml配置(HA)(1) HDFS命名服务的逻辑名称(2) NameN...转载 2019-05-27 19:51:39 · 187 阅读 · 0 评论 -
Hadoop HA + Federation + YARN HA配置实现(九)
集群规划配置步骤一、 前提准备1) 安装好Hadoop2.0集群 《==参考《HADOOPHA+Federation集群实现(七)》及以前的文章2) 安装好zookeeper集群二、修改如下配置文件1) yarn-site.xml2) mapred-site.xml3) yarn-env.sh三、启动服务1) 启动HDFS2) 启动YARN,通过yarn-daemons.s...转载 2019-05-30 10:36:01 · 801 阅读 · 0 评论 -
hadoop2.6.0删除集群节点(三)
一、修改master节点hdfs-site.xml,增加dfs.hosts.exclude参数[hadoop@master hadoop]$ vi hdfs-site.xml<property><name>dfs.hosts.exclude</name><va...转载 2019-05-27 17:19:25 · 451 阅读 · 0 评论 -
hadoop2.6.0添加集群节点(二)
一、新节点操作系统配置(可以参考hadoop2.6.0三节点集群环境搭建(一))(1) 主机名更改(2) Ip地址配置(3) /etc/hosts文件配置(4) Jdk安装(5) /etc/hosts文件配置防火墙关闭(6) Selinux关闭(7) vm.swappiness参数配置(8) 创建hadoop用户及目录(9) 无密码登入二、 更新所有节点的/e...转载 2019-05-27 17:14:40 · 201 阅读 · 0 评论 -
hadoop2.6.0三个节点集群环境搭建(一)
一、操作系统配置(1) 主机名更改(2) Ip地址配置(3) /etc/hosts文件配置(4) 无密码登入(5) Jdk安装(6) /etc/hosts文件配置防火墙关闭(7) Selinux关闭(8) vm.swappiness参数配置(9) 创建hadoop用户及目录(1)主机名更改:[root@elephant catchup]# vi /etc/sysco...转载 2019-05-27 17:11:08 · 369 阅读 · 0 评论 -
hadoop2.6.0集群复制因子更改(四)
一、查看当前文件副本个数[hadoop@master hadoop]$ hdfs dfs -lsr /lsr: DEPRECATED: Please use 'ls -R' instead.drwxr-xr-x - hadoop supergroup 0 2017-03-16 23:39 /systemdrwxr-xr-x - hadoop supergroup...转载 2019-05-27 16:54:59 · 383 阅读 · 0 评论 -
Hadoop 1.2.1 伪分布升级到 2.6.0伪分布(八)
Hadoop 1.2.1伪分布式搭建一 创建目录mkdir -p /hadoop/hadoop/data/dfs/namemkdir -p /hadoop/hadoop/data/dfs/datamkdir -p /hadoop/tmpchown -R hadoop:root /hadoop二 解压hadoop 1.2.1到hadoop[hadoop@hadoop04 hadoo...转载 2019-05-30 10:31:49 · 98 阅读 · 0 评论 -
HDFS命令指南
HDFS命令指南 概览 User Commands classpath dfs envvars fetchdt fsck getconf groups httpfs lsSnapshottableDir jmxget oev oi...转载 2019-04-17 10:48:35 · 546 阅读 · 0 评论 -
HDFS用户指南
HDFS用户指南目的 概览 先决条件 Web界面 Shell命令 DFSAdmin命令 Secondary NameNode 检查点节点 备份节点 导入检查点 负载均衡 机架意识 安全模式 fsck的 fetchdt 恢复模式 升级和回滚 DataNo...转载 2019-04-17 10:38:29 · 244 阅读 · 0 评论 -
【笔记】Hadoop3.2.0 Hadoop 命令指南
Hadoop常用命令Archive1.如何创建档案[root@hadoop2 tmp]# hdfs dfs -mkdir /foo[root@hadoop2 tmp]# hdfs dfs -mkdir /foo/bar[root@hadoop2 tmp]# hdfs dfs -mkdir /foo/bar/a[root@hadoop2 tmp]# hdfs dfs -mkdir /...转载 2019-04-07 11:25:10 · 249 阅读 · 0 评论 -
Hadoop3.2.0 Hadoop 命令指南
Hadoop命令指南概览 Shell 选项 Generic 选项 User Commands 用户命令 archive checknative classpath conftest credential distch d...转载 2019-04-06 20:10:00 · 311 阅读 · 0 评论 -
Hadoop机架感知(rack-aware)配置
可参考:https://www.jianshu.com/p/372d25352d3a默认情况下,Hadoop机架感知是没有启用的,需要在NameNode机器的hadoop-site.xml里配置一个选项,例如: topology.script.file.name /path/to/script见:https://wiki.apache.org/hadoop/topolo...转载 2019-04-05 20:14:07 · 236 阅读 · 0 评论 -
hadoop日志聚合
一、在yarn-site.xml文件中添加日志监控支持该配置中添加下面的配置: <!-- 开启日志聚合 --> <property> <name>yarn.log-aggregation-enable</name> <value>true&...转载 2019-04-05 19:18:10 · 1193 阅读 · 0 评论 -
【笔记】Hadoop3.2.0群集设置
配置Hadoop守护进程的环境相关配置文件:etc/hadoop/hadoop-env.sh and optionally the etc/hadoop/mapred-env.sh and etc/hadoop/yarn-env.shetc/hadoop/hadoop-env.sh:主要是hadoop java环境变量配置及jvm设置等...原创 2019-03-22 09:32:24 · 526 阅读 · 0 评论 -
Hadoop3.2.0群集设置
目的 先决条件 安装 在非安全模式下配置Hadoop 配置Hadoop守护进程的环境 配置Hadoop守护进程 监控NodeManager的健康状况 奴隶档案 Hadoop机架意识 记录 操作Hadoop集群 Hadoop启动 Hadoop关闭 Web界面目的本文档描...转载 2019-03-21 15:57:44 · 195 阅读 · 0 评论 -
NameNode的format操作做了什么
在Hadoop的HDFS部署好了之后并不能马上使用,而是先要对配置的文件系统进行格式化。在这里要注意两个概念,一个是文件系统,此时的文件系统在物理上还不存在,或许是网络磁盘来描述会更加合适;二就是格式化,此处的格式化并不是指传统意义上的本地磁盘格式化,而是一些清除与准备工作。本文接下来将主要讨论NameNode节点上的格式化。 我们都知道,NameNode主要被用来管理整个分布式文件系统的命...转载 2019-02-28 10:50:40 · 270 阅读 · 0 评论 -
通过hadoop distcp进行集群间数据迁移
问题描述我所在的部门是BI,平时业务计算有两个Hadoop集群A和B。其中一个集群A因为大部分业务线计算都在上面,最近开始经常出问题,并且计算变慢。为了进行热备,决定把A集群的计算迁到B上一份,新抽取的数据可以在A和B上各自独立运行,但是历史数据没必要从头从MySQL中再抽一遍,即使可以这么做,也很耗费时间。所以最快的方式是把A的数据copy到B上一份。解决方案Hadoop自带的集群间co...转载 2019-02-28 10:34:34 · 754 阅读 · 0 评论 -
HDFS配额
名称配额(Name Quota)名称配额是在对应的目录下所有文件和目录名称的数量上的限制。当超过这个配额的时候,文件或目录就会创建失败,重命名后名称配额仍然有效。因为比较简单,所以我们直接测试:步骤一:创建一个测试目录[root@testbig1 ~]# hdfs dfs -mkdir /data/test_quota1步骤二:设置创建的目录的名称配额[root@testbig1 ~...转载 2019-02-28 09:59:22 · 716 阅读 · 1 评论 -
Hadoop本地库
#hadoop checknative -a2019-04-15 04:17:26,229 INFO bzip2.Bzip2Factory: Successfully loaded & initialized native-bzip2 library system-native2019-04-15 04:17:26,233 INFO zlib.ZlibFactory: Successf...原创 2019-04-15 16:22:02 · 1570 阅读 · 0 评论 -
Centos7下Hadoop3.x源码编译(Zstd问题已解决)
工具组件版本下载地址JDK1.8.0_131https://www.oracle.com/technetwork/java/javase/downloads/index.htmlHadoop3.1.1http://mirrors.hust.edu.cn/apache/hadoop/common/hadoop-3.1.1/hadoop-3.1.1-src.tar...转载 2019-04-15 17:03:09 · 1702 阅读 · 0 评论 -
浅析Hadoop Secondary NameNode,CheckPoint Node,Backup Node
Secondary NameNodeHadoop SecondaryNameNode并不是Hadoop 第二个NameNode,它不提供NameNode服务,而仅仅是NameNode的一个工具。这个工具帮助NameNode管理Metadata数据。NameNode的HDFS文件信息(即Metadata)记录在内存中,client的文件写操作直接修改内存中的Metadata,同时也会记录到硬盘的...转载 2019-04-17 10:01:22 · 330 阅读 · 0 评论 -
Hadoop3.2.0 HDFS架构
介绍 假想和目标 硬件故障 流式数据访问 大数据集 简单的一致性模型 “移动计算比移动数据便宜” 跨异构硬件和软件平台的可移植性 NameNode和DataNodes 文件系统命名空间 数据复制 副本安置:The First Baby Steps 副本...转载 2019-04-16 21:03:06 · 182 阅读 · 0 评论 -
HDFS元数据管理机制
元数据管理概述HDFS元数据,按类型分,主要包括以下几个部分:文件、目录自身的属性信息,例如文件名,目录名,修改信息等。文件记录的信息的存储相关的信息,例如存储块信息,分块情况,副本个数等。记录 HDFS 的 Datanode 的信息,用于 DataNode 的管理。按形式分为内存元数据和元数据文件两种,分别存在内存和磁盘上。 HDFS 磁盘上元数据文件分为两类,用于持久化存储:...转载 2019-04-16 19:57:42 · 127 阅读 · 0 评论 -
Hadoop Archives Guide(hdfs文件归档介绍和例子)
Hadoop Archives Guide(hdfs文件归档介绍和例子)一、概括介绍:1)、简介英文:Hadoop archives are special format archives. A Hadoop archive maps to a file system directory. A Hadoop ...转载 2019-03-27 08:45:18 · 161 阅读 · 0 评论 -
Distcp方式
转载:https://blog.youkuaiyun.com/yinansheng1/article/details/78402459一、概述(分布式拷贝)是用于大规模集群内部和集群之间拷贝的工具。它使用Map/Reduce实现文件分发,错误处理和恢复,以及报告生成。它把文件和目录的列表作为map任务的输入,每个任务会完成源列表中部分文件的拷贝。由于使用了Map/Reduce方法,这个工具在语义和执行上都...转载 2019-04-15 20:46:59 · 1382 阅读 · 0 评论 -
Hadoop fs -ls的各种scheme://authority/path
本文梳理使用Hadoop fs -ls 访问本地和hdfs的异同,欢迎各位批评指正。1、hadoop fs -ls hdfs://node4/2、hadoop fs -ls hdfs://node4:9000/3、hadoop fs -ls /4、hadoop fs -ls file:///...转载 2019-04-16 10:38:12 · 372 阅读 · 0 评论