Hadoop从入门到入土（第十三天）-优快云博客

本文链接：https://blog.youkuaiyun.com/W2484980893/article/details/124893046

HDFS数据组织

HDFS的API操作

客服端环境准备

HDFS数据组织

HDFS数据组织包括HDFS的数据块存储、流水线复制、文件的删除和恢复等机制保障了HDFS高效和可靠地存储数据。

数据块存储：HDFS被设计成支持大文件，适用HDFS的是那些需要处理大规模的数据的应用。这些应用都是只写入数据一次，但读取一次或者多次，并且读取速度应能满足流式读的需要。HDFS支持文件”一次写入、多次读出“语义。一个典型的数据块大小是128MB.因而，HDFS中的文件总是按照128MB被切分成不同的块，每个块尽可能地存储于不同的Datanode中。
流水线复制：当客户端向HDFS文件写入数据时，一开始写到本地临时文件中。假设该文件的副本数量设置为3，当本地临时文件累积到一个数据块大小时，客户端会从Namenode获取一个Datanode列表用于存放副本。然后客户端开始向第一个Datanode传输数据，第一个Datanode一小部分（4kb）地接收数据，将每一部分写入本地仓库，并同时传输该部分到列表中第二个Datanode。第二个Datanode也是这样，一小部分一小部分地接收数据，写入本地仓库，并同时传给第三个Datanode。最后，第三个Datanode接收数据并存储在本地。因此，Datanode能从流水线式地从前一个节点接收数据，并在同时转发给下一个节点，数据以流水线地方式从前一个Datanode复制到下一个Datanode。
文件的删除和恢复：当用户或应用程序删除某个文件时，这个文件并没有立刻从HDFS中删除。实际上，HDFS会将这个文件重命名转移/trash目录。只要文件还在/trash目录中，该文件就可以迅速被恢复。文件在/trash中保存的时间是可配置的，当超过这个时间时，Namenode就会将该文件从名字空间中删除。删除文件会使得该文件相关的数据块被释放。只要被删除的文件还在/trash目录中，用户就可以恢复这个文件。如果用户希望恢复被删除的文件，可以浏览/trash目录于其他的目录没有什么区别，除了一点：在该目录上HDFS会应用一个特殊策略来自动删除文件。目前的默认策略时删除/trashh中保留时间超过6小时文件。

HDFS的API操作

客服端环境准备

找到资料包路径下的 Windows 依赖文件夹，拷贝 hadoop-3.1.0 到非中文路径（比如 d:\）
配置HADOOP_HOME环境变量：我的电脑>右键>属性>高级系统设置>环境变量>新建>
```
变量：HADOOP_HOME
值：复制的hadoop路径
```
>双击path>
```
在最后添加：%HADOOP_HOME%bin
```
>回到Hadoop文件夹>双击运行winutils.exe.