Hadoop-HDFS Basic

最新推荐文章于 2024-08-22 15:22:12 发布

原创最新推荐文章于 2024-08-22 15:22:12 发布 · 325 阅读

0 ·

CC 4.0 BY-SA版权

Hadoop Ecosystem 专栏收录该内容

6 篇文章

订阅专栏

本文介绍了HDFS的基本概念，包括其块管理和默认大小，并探讨了HDFS的优势与局限性。文章还详细阐述了HDFS的主从结构及其组成部分的功能，如NameNode和DataNode的角色与职责，以及客户端如何进行文件读写操作。

基本概念

源于Google的GFS论文。
数据是采用块管理，Hadoop1.x中默认大小是64M，Hadoop2.x中大小默认为128M。
块变大为了最小化寻址开销，也就是让文件传输时间明显大于块的寻址时间，还有就是减轻NameNode的负担，因为在NameNode中存储块所在数据节点的信息，太小的块会占用过多内存。但是也不能过于大，因为MapReducer中一般一个map处理一个块上的数据，如果块很大，任务数会很少(少于集群中的节点个数)这样执行效率会明显降低。

优缺点

优势：

高容错性
适合批处理
适合大数据处理
流式数据访问
可构建在廉价机器上

缺点：

不适用小文件存取
节点内存有限，可存储的block数目有限；小文件消耗大量寻道时间
无法做到并发写、文件随机修改
无法做到低延迟

相对以文件存储的分布式系统，以block为单位存储的HDFS有什么优势？

高容错性
方便负载均衡

基本结构

主从结构

主：NameNode(HA-High Availability-热备份：Active/Standby)
- Active NameNode ：
  管理HDFS的名称空间
  管理数据块映射信息
  配置副本策略
  处理客户端读写请求
- Standby NameNode
  NameNode的热备，当Active NameNode出现故障时，快速切换为新的 ActiveNameNode
  定期合并fsimage和fsedits，推送给NameNode
从：DataNode
- Slave（有多个）
- 存储实际的数据块
  默认块大小128M
  默认副本3-数学推导；副本防止策略：
- 执⾏行数据块读/写
  读写流程！！

Cient:

文件切分
与NameNode交互，获取文件位置信息
与DataNode交互，读取或者写入数据
管理HDFS
访问HDFS

程序及访问方式

HDFS命令

#最好先配置HADOOP_HOME环境变量，否则必须在相应目录下才能运行指令
hdfs dfs -ls /  #查看文件
hdfs dfs -rmr /hdfs/data
hdfs dfs -mkdir /hdfs/data
hdfs dfsadmin
hdfs fsck /tmp/xx.txt -files -blocks -locations            #查看文件状况

Java API

可以在本地运行Java程序修改远程主机的hdfs，但是要配置好：
1.在resouces目录下将节点的core-site.xml文件拷贝过来
2.在本机hosts文件中配置Linux5的域名解析，否则还是无法识别
3.更改hdfs下/tmp目录的权限，否则提示权限不足无法新建目录！
但是mapreduce不能本地连接，必须打成jar包推到机器上