Hadoop-HDFS Basic

本文介绍了HDFS的基本概念,包括其块管理和默认大小,并探讨了HDFS的优势与局限性。文章还详细阐述了HDFS的主从结构及其组成部分的功能,如NameNode和DataNode的角色与职责,以及客户端如何进行文件读写操作。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

基本概念

源于Google的GFS论文。
数据是采用块管理,Hadoop1.x中默认大小是64M,Hadoop2.x中大小默认为128M。
块变大为了最小化寻址开销,也就是让文件传输时间明显大于块的寻址时间,还有就是减轻NameNode的负担,因为在NameNode中存储块所在数据节点的信息,太小的块会占用过多内存。但是也不能过于大,因为MapReducer中一般一个map处理一个块上的数据,如果块很大,任务数会很少(少于集群中的节点个数)这样执行效率会明显降低。

优缺点

优势

  • 高容错性
  • 适合批处理
  • 适合大数据处理
  • 流式数据访问
  • 可构建在廉价机器上

缺点

  • 不适用小文件存取
    节点内存有限,可存储的block数目有限;小文件消耗大量寻道时间
  • 无法做到并发写、文件随机修改
  • 无法做到低延迟

相对以文件存储的分布式系统,以block为单位存储的HDFS有什么优势?

  • 高容错性
  • 方便负载均衡

基本结构

主从结构

  • :NameNode(HA-High Availability-热备份:Active/Standby)

    • Active NameNode :
      管理HDFS的名称空间
      管理数据块映射信息
      配置副本策略
      处理客户端读写请求
    • Standby NameNode
      NameNode的热备,当Active NameNode出现故障时,快速切换为新的 ActiveNameNode
      定期合并fsimage和fsedits,推送给NameNode
  • :DataNode

    • Slave(有多个)
    • 存储实际的数据块
      默认块大小128M
      默认副本3-数学推导;副本防止策略:
    • 执⾏行数据块读/写
      读写流程!!

Cient:

  • 文件切分
  • 与NameNode交互,获取文件位置信息
  • 与DataNode交互,读取或者写入数据
  • 管理HDFS
  • 访问HDFS

程序及访问方式

HDFS命令

#最好先配置HADOOP_HOME环境变量,否则必须在相应目录下才能运行指令
hdfs dfs -ls /  #查看文件
hdfs dfs -rmr /hdfs/data
hdfs dfs -mkdir /hdfs/data
hdfs dfsadmin
hdfs fsck /tmp/xx.txt -files -blocks -locations            #查看文件状况

Java API

可以在本地运行Java程序修改远程主机的hdfs,但是要配置好:
1.在resouces目录下将节点的core-site.xml文件拷贝过来
2.在本机hosts文件中配置Linux5的域名解析,否则还是无法识别
3.更改hdfs下/tmp目录的权限,否则提示权限不足无法新建目录!
但是mapreduce不能本地连接,必须打成jar包推到机器上

优化技巧

文本文件
SequenceFile: flume收集的格式
列式存储格式:ORC Parquet
小文件合并为大文件
压缩
纠删码(3.0引进)
增大热点文件的副本数
冷数据的处理

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值