HDFS详解一

block

bolck块一般默认为128M,运行一个文件会把这个文件分成一个一个的块来运行
比如160M大小的文件会分成俩个块,第一个是占满的,而剩下的就给第二个块,也就是第一个块128M,第二个快32M

那这时我们想一个问题,文件小而且多会造成什么问题?
比如我们有1亿个小文件,每个文件250个字节,假设我们的namenode是4个g,这时就会把它挤爆,所以我们必须要把小文件给合并成一个差不多的文件才行,不过生产上面一般不会
那了解了小文件的危害我们要说一下怎么解决?
解决的办法:
1.在hdfs之前合并
2.在spark service服务合并
3.通过调度,比如每天调度合并15天

小文件讲完了接下来当然还有大文件
大文件的问题就是如果分成128M的块,那内存的占用很高,所以解决办法很简单,就是可以把我们的块调大,一般调到256M即可

HDFS的架构

hdfs是主从架构关系
namenode(大哥)负责名称的命名空间
1.文件名称
2.块的副本数
3.目录结构
4.块对应运行在datanode节点
5.对datanode进行动态维护

datanode(小弟)负责干活
1.datanode会3秒给namenode发送一次心跳包,证明自己还活着
2.每隔6小时会发送一次快报告blockreport

sercondarynamenode(二哥)
负责给namenode检查editlogs进行合并再发送回去

检查日志的路径是[hadoop@hadoop002 dfs]$ cd /tmp/hadoop-hadoop/dfs
然后我们会看到

[hadoop@hadoop002 dfs]$ ll
total 12
drwx------. 3 hadoop hadoop 4096 Jan  4 19:47 data
drwxrwxr-x. 3 hadoop hadoop 4096 Jan  4 19:47 name
drwxrwxr-x. 3 hadoop hadoop 4096 Jan  4 19:48 namesecondary

[hadoop@hadoop002 dfs]$ cd name/current/

cd进去后我们会看见

[hadoop@hadoop002 current]$ ll
total 11352
-rw-rw-r--. 1 hadoop hadoop      42 Jan  4 12:13 edits_0000000000000000001-0000000000000000002
-rw-rw-r--. 1 hadoop hadoop 1048576 Jan  4 12:13 edits_0000000000000000003-0000000000000000003
-rw-rw-r--. 1 hadoop hadoop      42 Jan  4 12:31 edits_0000000000000000004-0000000000000000005
-rw-rw-r--. 1 hadoop hadoop 1048576 Jan  4 12:59 edits_0000000000000000006-0000000000000000196
-rw-rw-r--. 1 hadoop hadoop 1048576 Jan  4 13:02 edits_0000000000000000197-0000000000000000197
-rw-rw-r--. 1 hadoop hadoop 1048576 Jan  4 13:03 edits_0000000000000000198-0000000000000000198
-rw-rw-r--. 1 hadoop hadoop      42 Jan  4 13:46 edits_0000000000000000199-0000000000000000200
-rw-rw-r--. 1 hadoop hadoop 1048576 Jan  4 13:46 edits_0000000000000000201-0000000000000000201
-rw-rw-r--. 1 hadoop hadoop 1048576 Jan  4 13:58 edits_0000000000000000202-0000000000000000202
-rw-rw-r--. 1 hadoop hadoop      42 Jan  4 18:11 edits_0000000000000000203-0000000000000000204
-rw-rw-r--. 1 hadoop hadoop      42 Jan  4 19:11 edits_0000000000000000205-0000000000000000206
-rw-rw-r--. 1 hadoop hadoop 1048576 Jan  4 19:11 edits_0000000000000000207-0000000000000000207
-rw-rw-r--. 1 hadoop hadoop      42 Jan  4 19:24 edits_0000000000000000208-0000000000000000209
-rw-rw-r--. 1 hadoop hadoop 1048576 Jan  4 19:24 edits_0000000000000000210-0000000000000000210
-rw-rw-r--. 1 hadoop hadoop      42 Jan  4 19:32 edits_0000000000000000211-0000000000000000212
-rw-rw-r--. 1 hadoop hadoop 1048576 Jan  4 19:32 edits_0000000000000000213-0000000000000000213
-rw-rw-r--. 1 hadoop hadoop      42 Jan  4 19:37 edits_0000000000000000214-0000000000000000215
-rw-rw-r--. 1 hadoop hadoop 1048576 Jan  4 19:37 edits_0000000000000000216-0000000000000000216
-rw-rw-r--. 1 hadoop hadoop      42 Jan  4 19:49 edits_0000000000000000217-0000000000000000218
-rw-rw-r--. 1 hadoop hadoop   13515 Jan  4 20:49 edits_0000000000000000219-0000000000000000329
-rw-rw-r--. 1 hadoop hadoop      42 Jan  4 21:49 edits_0000000000000000330-0000000000000000331
-rw-rw-r--. 1 hadoop hadoop 1048576 Jan  4 21:49 edits_inprogress_0000000000000000332
-rw-rw-r--. 1 hadoop hadoop    4102 Jan  4 20:49 fsimage_0000000000000000329
-rw-rw-r--. 1 hadoop hadoop      62 Jan  4 20:49 fsimage_0000000000000000329.md5
-rw-rw-r--. 1 hadoop hadoop    4102 Jan  4 21:49 fsimage_0000000000000000331
-rw-rw-r--. 1 hadoop hadoop      62 Jan  4 21:49 fsimage_0000000000000000331.md5
-rw-rw-r--. 1 hadoop hadoop       4 Jan  4 21:49 seen_txid
-rw-rw-r--. 1 hadoop hadoop     207 Jan  4 17:12 VERSION

其中-rw-rw-r--. 1 hadoop hadoop 1048576 Jan 4 21:49 edits_inprogress_0000000000000000332表示正在写,而这个正在写就是分割线标识符,表示0000000000000000332之前的都已经写好了

块的副本

首先为什么要有副本?
答:副本是为了避免机器出现崩溃等问题导致数据丢失,默认我们是生成三个副本
那我们副本需要怎么放置?
答:第一个副本一般放在自己datanode的机器中,第二和三个副本放在同一个机架不同机器上
因为副本也是会占用实际内存的,就相当于我们windows那样复制了一份,所以对于有时数据量实在是太多,可以把副本数减小为2个,这样可以让出我们的内存空间

### HDFS 详解分布式文件系统架构与原理 #### HDFS概述 HDFSHadoop Distributed File System)是种专为大数据存储和处理而设计的分布式文件系统[^2]。它是Hadoop生态系统的核心组件之,旨在解决海量数据的可靠存储和高效访问问题。 #### HDFS的设计目标 HDFS的主要设计目标包括但不限于以下几个方面: - **大文件存储**:适合存储TB甚至PB级别的超大规模文件。 - **高吞吐量**:通过批量读写操作减少网络传输开销,提升数据访问效率[^4]。 - **容错能力**:即使部分节点发生故障,也能保证系统的正常运行。 - **可扩展性**:可以通过增加硬件资源轻松扩展存储容量和性能。 #### HDFS基本架构 HDFS采用主从结构(Master-Slave Architecture),主要由以下三个核心组件构成: 1. **NameNode** NameNode是HDFS集群的大脑,负责管理整个文件系统的命名空间和元数据信息。它记录了每个文件被分割成哪些数据块(Block),以及这些数据块分布在哪个DataNode上[^3]。此外,NameNode还接收客户端请求并协调执行各种文件操作。 2. **DataNode** DataNode是实际存储数据的工作节点,在物理磁盘上保存文件的内容片段即数据块。当启动时,它们向NameNode汇报当前持有的所有块列表;之后定期发送心跳信号以维持联系状态同时更新可用空间等动态参数[^3]。 3. **Secondary NameNode** 虽然名字里带“name”,但它并非真正的名称服务器替代品而是辅助角色——主要用于周期性合并fsimage(镜像文件)与edits log日志从而减轻primary namenode负担防止内存溢出风险但不参与实时业务流程因此严格意义上不属于HA(high availability)范畴内的备用方案[^未提及]. #### 工作原理 以下是HDFS的关键工作机制描述: - **文件写入过程**: 客户端发起上传请求给namenode,后者分配block id并将该id告知相应datanodes形成pipeline链路以便后续streaming-style write;期间每完成个chunk size大小的数据传递后立即同步副本至其他指定位置直到达到预设replication factor为止. - **文件读取过程**: 用户定位所需resource path提交query到nn获取target blocks location info随后直接连接dn拉取content而非经由中间层转发以此降低latency提高efficiency. - **数据复制机制**: 默认情况下份data会被copy三次分别放置于不同machine之上确保即便遭遇single point failure仍能恢复original content without loss.[^not specific] - **故障检测与恢复**: dn定时上报health status report to nn so that it can promptly detect any abnormal situation like node offline or disk corruption etc., then trigger corresponding recovery actions such as re-replicating lost chunks elsewhere within cluster boundaries accordingly.[^also not clear here] #### 性能优化特点 除了基础功能外,hdfs还有诸多针对特定场景做了专门调优的地方比如: - 支持rack awareness configuration which helps balance load across multiple racks thereby reducing inter-rack traffic costs significantly while enhancing fault tolerance at the same time.[^no exact source provided yet] - Implementing short-circuit reads when possible allows bypassing normal network channels between client and remote datanodes thus achieving faster local access speeds under certain conditions where both parties reside on identical physical hosts/machines.[^again no direct citation available currently] ```python # 示例代码展示如何简单交互hdfs api from hdfs import InsecureClient client = InsecureClient('http://localhost:9870', user='hadoop') with client.write('/example.txt') as writer: writer.write(b'Hello World\n') result = client.read('/example.txt').decode() print(result) ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值