HDFS分布式存储

1. Hadoop历史:

1.1创建者: Doug Cutting

1.2名字起源:  Doug Cutting 的孩子的棕黄色大象玩具的名字

1.3三驾马车:
谷歌的三驾马车:  GFS、MapReduce和BigTable
根据谷歌的三驾马车得到了:HDFS、Hadoop、HBase

1.4hadoop生态圈:
HDFS:分布式存储
Yarn:分布式资源管理器
Mapreduce:分布式计算框架
common:公共部分


2.HDFS存储原理:

2.1各个角色及其作用:

NameNode:
1.接受客户端的读写请求

2.管理元数据:
2.1上传文件的权限
2.2上传文件的属主以及属组
2.3上传文件的时间
2.4上传文件的block数以及ID号
2.5每一个Block的位置信息是由DN在集群启动之时汇报的,不会持久化
2.6各个DN的位置信息

3.管理DN

DataNode:
1.接受客户端的读请求
2.存储block块
3.向active NN汇报心跳
4.构建pipeline的管道
5.管理本机上的block元数据

SNN:
SecondryNameNode 负责持久化,拉取NN节点上的edtis+fsimages文件 合并

合并过程:
文件拉取之时,在NN节点上会创建edits_new目的就是为了存储在合并期间对HDFS的操作
1.基于拉来的edits文件的重演,产生元数据
2.将重演产生的元数据合并到fsimages中
3.将合并后f’simages推送给NN
4.将edits.new文件的后缀去掉

合并的触发机制:
1.超过3600S就合并一次
2.edits文件大小超过64M

ZKFC:
1.监控各自的NN,将监控的情况汇报给zk集群
2.接受zk的选举结果,确认一下另外一个NN是否真的挂了,将自己监控的NN提升为active

Journalone:
1.写数据的时候,只需要保证半数以上的即诶但写入成功就可以了
2.最终一致性/弱一致性
3.存储的是edits

备用的NN:
1.监控journalone中数据变化,实时更新自己的内存数据
2.将内存中元数据持久化到fsimages中,然后推送到NN

备份机制:
1.如果是集群外操作们第一个block存储在负载不高的节点上(默认128M dfs.blocksize 严格按照字节切割,如果存储的是中文,会出现乱码问题)
2.如果集群内操作,在本机
第二个block在其他机架随机一台服务器上
第三个block在与第二个block同机架的其他节点上

HDFS的读写流程:
读流程:
1.client访问NameNode,查询元数据信息,获得这个文件的数据块位置列表,返回输入流对象。
2.就近挑选一台datanode服务器,请求建立输入流 。
3.DataNode向输入流中中写数据,以packet为单位来校验。
4.关闭输入流
写流程:
1.client计算block的数量,切割大文件成一个个block
2.用户端client向NameNode汇报上传文件的权限、数据块block数和上传时间,这些内容在此时被加载到NameNode的内存中。
3.请求一个id号和请求存放的block位置
4.NameNode将当前负载不高的DataNode的地址发送给client
5.将block切割成一个个packet(64K),然后源源不断地往Pipeline管道(多个备份和一份数据)中传送,实现并行存储。
6.DataNode存储完一个块后向NameNode汇报当前的存储情况(block的位置),此时此信息被加载到NameNode内存中。

搭建集群的三种模式:
1.伪分布式,测试环境使用
2.完全分布式: hdfs-site.xml、core-site.xml、 slaves从节点hostname
3.高可用的完全分布式:
3.1 hdfs-site.xml、core-site.xml、 slaves从节点hostname、
3.2格式化、
3.3将本机的NN启动、
3.4去备用的NN节点,同步元数据、
3.5格式化ZKFC(先启动zookeeper)、
3.6关闭所有节点、
3.7start-dfs.sh:
3.7.1安全模式1、NN会将fsimage与edits合并 2、检查各个及诶点上的block块以及副本是否符合要求,若不符合要求,指挥存储数据丢失的DN做备份 3、检查各个DN的健康状况
3.7.2正常对外提供存储服务

HDFS的优缺点:
1.优点:
1.1副本机制,所以数据更安全
1.2因为是分布式存储,所以适合批处理
1.3高可用性
1.4元数据持久化
1.5禁掉一些功能,使集群更加完美(修改功能,文件一旦上传,就不能修改block的大小)
2.缺点:
1.无法毫秒级的读写数据:读写复杂需要找nn请求,形成管道,文件切割block packet
2.不适合存储大量的小文件:容易造成元数据过多,NN内存溢出,解决方法:1.将小文件合并成打文件、2.联邦机制
3.不能并发写入,但是可以并发的读

JAVAAPI:
准备环境:
1.本机配置HADOOP_HOME
2.替换bin目录
3.修改用户名
4.导入JAR
5.安装插件,方便在ecplise中操作集群

### 关于HDFS分布式存储的使用教程 #### HDFS简介 HDFS(Hadoop Distributed File System)是一种分布式的文件系统,旨在运行在通用硬件上。它提供了高吞吐量的数据访问机制,非常适合大规模数据分析应用[^1]。 #### HDFS架构概述 HDFS采用主从架构模型,其中NameNode作为主节点负责管理文件系统的命名空间以及客户端请求;DataNode作为工作节点负责存储实际数据块并执行由NameNode指派的任务。此外还有Secondary NameNode辅助完成周期性的元数据检查点操作以减轻主节点负担[^3]。 #### 安装与配置流程 ##### 环境准备 确保所有参与节点的操作系统版本一致,并设置好无密码SSH连接以便简化后续部署过程中的交互步骤[^4]。 ##### 软件安装 将Hadoop压缩包上传至目标机器后解压到指定位置,通常建议放置于`/export/server/`目录下并通过创建符号链接来固定路径名便于升级替换时调整指向对象而不影响既有脚本调用关系。 ```bash tar -zxvf hadoop-3.3.6.tar.gz -C /export/server/ cd /export/server ln -s /export/server/hadoop-3.3.6 hadoop ``` ##### 配置修改 编辑核心站点配置文件(`core-site.xml`)定义默认FS URI地址等全局属性; 同时更新HDFS特定选项集合文档(`hdfs-site.xml`)设定副本保存数量等相关细节参数[^1]。 #### 日常运维指令集锦 以下是几个常用的命令行工具用于管理和操作HDFS资源: - **文件传输** 利用`hdfs dfs -copyFromLocal`可实现把本地磁盘上的某个项目迁移到远程仓库里去[^2]。 ```bash hdfs dfs -copyFromLocal /path/to/local/file /user/dfstest/ ``` - **权限控制** 对新建子树实施细粒度的安全策略限制未授权用户的不当行为模式[^1]. - **状态查询** 展示当前活动会话列表或者统计分区大小信息等功能均可以通过简单的CLI接口轻松达成目的[^2]。 #### 存储策略定制化方案 针对不同业务场景需求设计专属物理介质分配规划图谱有助于提升整体性能表现指标水平线高度。例如Hot/Warm/Cold分类方法论就是按照读写频率高低划分出来的三种典型代表形式之一。 ---
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值