hdfs-储备室
文章平均质量分 57
_东极
少年锦时
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
两个namenode都是standby状态
日志信息hdfs haadmin -transitionToActive nn1 报错2019-10-18 03:49:21,586 INFO org.apache.hadoop.hdfs.server.namenode.ha.EditLogTailer: Triggering log roll on remote NameNode note02/192.168.18.101:9000201...原创 2019-10-20 19:00:06 · 1401 阅读 · 0 评论 -
hadoop的HA搭建
文章目录集群规划zookeeperhdfs启动HDFS-HA集群集群规划note01note02note03NameNodeNameNodeJournalNodeJournalNodeJournalNodeDataNodeDataNodeDataNodeZKZKZKResourceManagerResourceManager...原创 2019-10-20 18:23:20 · 491 阅读 · 0 评论 -
完全分布式部署Hadoop集群(三)完成基本搭建
集群规划注意:真实集群搭建 NameNode独占一个资源 不和datanode一起SecondaryNameNode 也一样每一个datanode配置一个nodemanager,ResourceManager 避开namenode和secondarynamendoe基本搭建cd /opt/module/hadoop-2.7.2/etc/hadoopvim core-site.xml ...原创 2019-10-17 22:40:34 · 992 阅读 · 0 评论 -
完全分布式部署Hadoop集群(四)集群的基本测试以及集群时间同步
创建文件夹hadoop fs -mkdir -p /user/input命令的形式查看文件上传文件hadoop fs -put wcinput/wc.input /user/input查看上传的文件hadoop fs -cat /user/input/wc.input上传大文件hadoop fs -put /opt/software/hadoop-2.7.2.tar.g...原创 2018-11-03 01:56:55 · 975 阅读 · 0 评论 -
Hadoop的namenode的镜像文件和编辑日志
存储地址:namenode 被格式化之后,将在/opt/module/hadoop-2.7.2/data/tmp/dfs/name/current 目录中产生文件名为edits,fsimage,seen_txid,VERSIOn(1) fsimage文件:HDFS文件系统元数据的一个永久性检查点,包含HDFS文件系统的所有目录和文件idnode的序列化信息(2)edits文件:存放HDF...原创 2018-11-05 00:47:24 · 1682 阅读 · 0 评论 -
详细解NameNode和Secondary NameNod信息
查看 namenode 版本号在/opt/module/hadoop-2.7.2/data/tmp/dfs/name/current 这个目录下查看 VERSIONnamespaceID=1933630176clusterID=CID-1f2bf8d1-5ad2-4202-af1c-6713ab381175cTime=0storageType=NAME_NODEblockpoolID=...原创 2018-11-05 01:12:29 · 1354 阅读 · 0 评论 -
手动模拟NameNode故障处理以及集群的安全操作
方法一:将SecondaryNameNode中的数据拷贝到namenode存储数据的目录模拟 namenode 故障,并采用方法一,恢复 namenode 数据模拟实现jps查看namenode进程 并 kill -9 进程号 杀死进程删除 namenode 存储的数(/opt/module/hadoop-2.7.2/data/tmp/dfs/name) [root@testno...原创 2018-11-05 21:39:58 · 780 阅读 · 0 评论 -
NameNode的多目录配置
namenode的本地目录可以配置多个,每个目录相同,增加可靠性在hdfs-site.xml文件中增加 <property> <name>dfs.namenode.name.dir</name> <value>file:///${hadoop.tmp.dir}/dfs/name1,file:///${hadoop.tmp.dir}/d...原创 2018-11-05 22:28:29 · 2759 阅读 · 2 评论 -
DataNode的工作机制
一个数据块在datanode上以文件的形式存储在磁盘上,包括两个文件,一个是数据本身,一个数元数据,包括数据块的长度,块数据的校验和,以及时间戳 (这个时候是安全机制)DataNode启动后向namenode注册,通过后,周期性(1小时)的向namenode上报所有块的信息心跳每3秒一次.心跳返回的结果带有namenode给datanode的命令,如复制块数据到另外一台机器,或删除某个数据...原创 2018-11-05 22:49:49 · 800 阅读 · 0 评论 -
datanote掉线时限参数设置
datanode 进程死亡或者网络故障造成 datanode 无法与 namenode 通信,namenode 不会立即把该节点判定为死亡,要经过一段时间,这段时间暂称作超时时长。HDFS 默认的超时时长为 10 分钟+30 秒。如果定义超时时间为 timeout,则超时时长的计算公式为:timeout = 2 * dfs.namenode.heartbeat.recheck-interva...原创 2018-11-05 23:40:48 · 664 阅读 · 0 评论 -
DataNode的目录结构
和namenode不同的是,datanode的存储目录是初始阶段自动创建的,不需要额外格式化在/opt/module/hadoop-2.7.2/data/tmp/dfs/data/current cat VERSION #Tue Nov 06 05:43:25 CST 2018 storageID=DS-6d013652-f213-4118-9e89-e53d7ab028c9 c...原创 2018-11-06 01:11:45 · 1502 阅读 · 0 评论 -
hadoop的shelll操作
文章目录1.基本语法2.命令大全1.基本语法bin/hadoop fs 具体命令 OR bin/hdfs dfs 具体命令dfs是fs的实现类2.命令大全[-appendToFile <localsrc> ... <dst>] [-cat [-ignoreCrc] <src> ...] [-checksum <...原创 2019-06-01 19:31:09 · 583 阅读 · 0 评论 -
NameNode与Secondary NameNode 工作机制
第一阶段:namenode启动1. 第一次启动NN格式化后创建fsimage和edits文件.如果不是第一次启动,直接加载 编辑日志和镜像文件到内存2. 客户端对元数据进行增删改的请求3. NN记录操作日志,更新滚动日志4. NN在内存中对数据进行增删改查第二阶段:Secondary NameNode 工作1. SecondaryNameNode访问NN是否需要chec...原创 2018-11-04 21:59:32 · 636 阅读 · 0 评论 -
完全分布式部署Hadoop集群准备(二)编写集群分发脚本
编写集群分发脚本xsync作用:配置所有节点的同步信息在/usr/local/bin这个目录下存放的脚本,可以在系统任何地方直接执行/usr/local/bin目录下touch xsyncchmod 777 xsync #!/bin/bash#获取输入参数的个数.没有参数直接退出pcount=$#if((pcount==0));then echo no args; exit...原创 2018-11-02 22:29:11 · 1245 阅读 · 0 评论 -
HDFS网络拓扑概念和机架感知(副本节点的选择)以及一致性模型
网络拓扑概念在本地网络中,两个节点被称为“彼此近邻”:在海量数据处理中,其主要限制因素是节点之间数据的传输速率——带宽很稀缺。这里的想法是将两个节点间的带宽作为距离的衡量标准。节点距离:两个节点到达最近的共同祖先的距离总和。例如,假设有数据中心 d1 机架 r1 中的节点 n1。该节点可以表示为/d1/r1/n1。利用这种标记,这里给出四种距离描述机架感知(副本节点的选择)官...原创 2018-11-04 18:00:54 · 1469 阅读 · 0 评论 -
Hadoop使用伪分布式的搭建
安裝jdkvi /etc/profileexport JAVA_HOME=PATH=$PATH:$JAVA_HOME/bin设置免密钥登录(本机)ssh-keygen -t dsa -P '' -f ~/.ssh/id_dsacat ~/.ssh/id_dsa.pub &amp;amp;amp;amp;gt;&amp;amp;amp;amp;gt; ~/.ssh/authorized_keyshadoop.tar.gz 到服务器,解压到指定原创 2018-11-01 20:36:04 · 472 阅读 · 0 评论 -
Hadoop在yarn上运行mr程序以及历史服务器的配置
yarn上运行mr程序配置yarn-env.sh配置yarn-site.xml &amp;lt;!-- reducer获取数据的方式 --&amp;gt;&amp;lt;property&amp;gt; &amp;lt;name&amp;gt;yarn.nodemanager.aux-services&amp;lt;/name&amp;gt; &原创 2018-11-02 01:06:55 · 1807 阅读 · 0 评论 -
hadoop配置日志聚焦功能
停止所有进程,依次为mr-jobhistory-daemon.sh stop jobhistoryserveryarn-daemon.sh stop nodemanageryarn-daemon.sh stop resourcemanagerhadoop-daemon.sh stop datanodehadoop-daemon.sh stop namenode关闭所有的服务后配置y...原创 2018-11-02 02:05:51 · 455 阅读 · 0 评论 -
使用IDEA实现HDFS客户端的简单操作
添加依赖 &lt;dependency&gt; &lt;groupId&gt;junit&lt;/groupId&gt; &lt;artifactId&gt;junit&lt;/artifactId&gt; &lt;version&gt;4.12&原创 2018-11-03 21:59:56 · 6406 阅读 · 1 评论 -
服务新数据节点和退役旧数据节点
当原有的数据节点容量达不到存储数据需求,需要在原有集群基础上动态添加新的数据节点准备一台虚拟机修改ip,主机名称.以及hosts配置jdk以及hadoop的环境修改xcall和xsync文件,增加新节点,同步ssh修改xcall修改xsync设置免密码登录 ssh-keygen -t dsa -P '' -f ~/.ssh/id_dsa将生成的公钥拷贝到主机...原创 2018-11-06 20:46:03 · 724 阅读 · 0 评论 -
集群间数据拷贝和Hadoop存档对于小文件处理
scp实现两个远程主机之间的文件复制 scp -r hello.txt root@hadoop103:/user/atguigu/hello.txt // 推 push scp -r root@hadoop103:/user/atguigu/hello.txt hello.txt // 拉 pull scp -r root@hadoop103:/user/atguigu/hello....原创 2018-11-06 22:23:00 · 539 阅读 · 0 评论 -
HDFS的快照管理
快照相当于对目录做一个备份,并不会立刻复制所有文件,而是指向同一个文件,当写入发生时,才会产生新文件基本语法(1)hdfs dfsadmin -allSnapshot 路径 (功能描述:开启指定目录的快照功能)[root@testnote01 test]# hdfs dfsadmin -allowSnapshot /user/test/zydAllowing snaphot on /u...原创 2018-11-06 22:46:02 · 2169 阅读 · 0 评论 -
hdfs回收站的设置
1)默认回收站默认值 fs.trash.interval=0,0 表示禁用回收站,可以设置删除文件的存活时间。默认值 fs.trash.checkpoint.interval=0,检查回收站的间隔时间。要求 fs.trash.checkpoint.interval<=fs.trash.interval启用回收站修改core-site.xml 配置垃圾回收时间为1分钟 <...转载 2018-11-07 00:34:16 · 1392 阅读 · 0 评论 -
完全分布式部署Hadoop集群准备(一)
配置三台虚拟机分别设置名称为testnote01,testnote02,testnote03分别配置三台虚拟机的ip192.168.18.50192.168.18.51192.168.18.52主机名等信息,详情虚拟机克隆冲突解决cat /etc/hosts //修改为192.168.18.50 testnote01192.168.18.51 testnote02192....原创 2018-11-02 20:13:26 · 356 阅读 · 0 评论 -
通过IO流操作 HDFS代码实现
HDFS文件上传 @Test /** * HDFS文件上传 */ public void putFileToHDFS() throws URISyntaxException, IOException, InterruptedException { //1.获取文件系统 Configuration configura...原创 2018-11-04 17:14:00 · 808 阅读 · 0 评论 -
HDFS的数据流读写数据流的过程
HDFS写数据的流程客户端通过分布式文件系统(Distributed FileSystem) 模块向namenode请求上传文件,namenode检查目标文件是否已存在,父目录是否存在namenode返回是否可以上传客户端请求第一个block上传到哪几个datanode服务器上namenode返回3个datanode节点,分别是dn1,dn2,dn3客户端通过FSDataOutput...原创 2018-11-04 17:43:25 · 1285 阅读 · 0 评论 -
Hadoo初识
Hadoop组成:HDFS(存储)+MapReduce(计算)+yarn(资源管理)HDFS:高可靠,高扩展性和高吞吐率的数据存储服务MapReduce:编程,高容错性,高扩展性YARN:负责集群资源的管理和调度...原创 2018-11-01 19:14:00 · 363 阅读 · 0 评论
分享