
大数据之Hadoop(HDFS)
Hadoop之
HDFS
念达
沸腾的时光怎能被荒芜
展开
-
1)Hadoop之入门
大数据概念(百度百科):大数据(big data)是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。数据存储单位(从小到大):bit、Byte、KB、MB、GB、TB、PB、EB、ZB、YB、BB、NB、DB;【1Byte=8bit】【1KB=1024Byte】【1MB=...原创 2019-09-10 22:36:58 · 186 阅读 · 0 评论 -
2)Hadoop之搭建HDFS伪分布式集群
准备一台虚拟机(hd101);安装VMware Tools :2.1 以root用户进入Centos图形化界面2.2 在 /opt 建两个目录并修改权限:software(放压缩包)、module(压缩包解压目录)①mkdir software module ② chmod 777 /opt/software/ /opt/module/2.3 将VMware Tools 中的压缩...原创 2019-09-11 22:18:57 · 241 阅读 · 0 评论 -
3)Hadoop之搭建HDFS完全分布式集群
搭建一个伪分布式节点(hd101);HDFS伪分布式集群搭建由hd101克隆两个台虚拟机hd102、hd103修改克隆机的静态IP原创 2019-09-15 14:20:33 · 365 阅读 · 2 评论 -
4)Hadoop之集群补充说明
Hadoop的目录结构说明:重要目录:①bin:存放对Hadoop相关服务(HDFS、YARN)进行操作的脚本②etc:存放Hadoop配置文件③lib:存放Hadoop的本地库(对数据的压缩解压缩功能)④logs:自己创建的用于存放日志的目录⑤sbin:存放启动或停止Hadoop相关服务的脚本⑥share:存放Hadoop依赖的jar包、文档、和官方案例格式化NameNode...原创 2019-09-16 20:31:57 · 152 阅读 · 0 评论 -
5)Hadoop之HDFS概述
HDFS的出现背景及定义:①出现背景:随着数据量越来越大,一个操作系统存不下所有数据,那不得将数据存在多个操作系统管理的磁盘上,但这样不便于管理,这就迫切需要一种系统来管理多台机器上的数据,这就出现了分布式文件管理系统,HDFS就是其中一种;②定义:HDFS(Hadoop Distributed File System),首先,它是一个文件系统,用于存储文件,通过数目录来定位文件;其次,它是...原创 2019-09-18 20:00:36 · 129 阅读 · 0 评论 -
6)Hadoop之HDFS的客户端操作
HDFS客户端准备Windows环境下准备好hadoop的压缩包,并将其解压到某指定目录:(F:\BigBata_profiles)配置环境变量:①HADOOP_HOME:F:\BigBata_profiles\hadoop-2.7.2②PATH:F:\BigBata_profiles\hadoop-2.7.2\bin创建一个名为HdfsClientDemo的Maven项目(IDEA/...原创 2019-09-19 22:51:39 · 228 阅读 · 0 评论 -
7)Hadoop之HDFS的数据流
HDFS的写数据流程:如图所示:①客户端通过Distributed FileSystem模块向NameNode请求上传文件,NameNode检查文件是否存在,父目录是否存在;②NameNode返回是否可以上传;③客户端请求上传第一个block到哪几个DataNode服务器上;④NameNode返回可以上传的三个DataNode节点(dn1,dn2,dn3);⑤客户端FSDataOu...原创 2019-09-23 11:28:00 · 149 阅读 · 0 评论 -
8)Hadoop之HDFS:NN和2NN
NN和2NN的工作机制如图所示:第一阶段:NameNode启动:①若是第一次启动NameNode,则需要格式化NameNode,然后fsimage和Edits会被创建,如果不是第一次启动,则直接把fsimage和Edits加载进内存;②客户端对元数据的增删改的请求;③NN记录操作日志,更新滚动日志;④NN在内存中对数据增删改;第二阶段:Secondary NameNod...原创 2019-09-23 18:53:18 · 1086 阅读 · 0 评论 -
9)Hadoop之HDFS(集群安全模式、NN多目录配置)
集群安全模式概述:NameNode启动:NN启动时,首先将镜像文件(Fsimage)加载进内存,并执行编辑日志(Edits)中的各项操作,一旦内存中建立起文件系统元数据的映像,则创建一个新的Fsimage和一个空的Edits,此时,NN开始监听DN的请求。在这个过程期间,NN一直运行在安全模式中,即文件系统对客户端来说是只读的;DataNode启动:系统中数据块的位置并不是NN维护...原创 2019-09-24 10:50:03 · 313 阅读 · 0 评论 -
10)Hadoop之HDFS(DataNode相关)
DataNode工作机制:如图所示:详解:一个数据块以文件的形式存在DN上,它包含两个文件,一个是数据本身,另一个是包含块数据的长度、块数据的校验和、时间戳的元数据;DN在NN注册成功后,定期(1小时)的向NN上报所有的块信息;心跳是每三秒一次,心跳返回带有NN给DN的命令(如复制块数据到另一台机器,删除某个数据块等),若NN超过10分钟没有收到DN的心跳,则NN会认为该节点不可用...原创 2019-09-24 15:00:15 · 157 阅读 · 0 评论 -
11)Hadoop之HDFS2.x新特性
集群间数据拷贝scp实现两台远程主机之间数据的拷贝:scp -r hello.txt root@hd102:/user/zy/hello.txt // 推 pushscp -r root@hd102:/user/zy/hello.txt hello.txt // 拉 pullscp -r root@hd102:/user/zy/hello.txt root@hd103:/user/z...原创 2019-09-25 15:09:56 · 203 阅读 · 0 评论 -
12)Hadoop之HDFS HA(高可用)
HA概述:所谓HA(High Available),即高可用(7*24小时服务不中断)实现高可用最关键的策略是消除单点故障。HA严格来说应该分成各个组件的HA机制:HDFS的HA和YARN的HA。Hadoop2.0之前,在HDFS集群中NameNode存在单点故障(SPOF)。NameNode主要在以下两个方面影响HDFS集群:NameNode机器发生意外,如宕机,集群将无法使用,直...原创 2019-09-25 15:40:23 · 455 阅读 · 2 评论