Hadoop从入门到入土(第十三天)

目录

HDFS数据组织

HDFS的API操作

客服端环境准备


 

HDFS数据组织

HDFS数据组织包括HDFS的数据块存储、流水线复制、文件的删除和恢复等机制保障了HDFS高效和可靠地存储数据。

  1. 数据块存储:HDFS被设计成支持大文件,适用HDFS的是那些需要处理大规模的数据的应用。这些应用都是只写入数据一次,但读取一次或者多次,并且读取速度应能满足流式读的需要。HDFS支持文件”一次写入、多次读出“语义。一个典型的数据块大小是128MB.因而,HDFS中的文件总是按照128MB被切分成不同的块,每个块尽可能地存储于不同的Datanode中。
  2. 流水线复制:当客户端向HDFS文件写入数据时,一开始写到本地临时文件中。假设该文件的副本数量设置为3,当本地临时文件累积到一个数据块大小时,客户端会从Namenode获取一个Datanode列表用于存放副本。然后客户端开始向第一个Datanode传输数据,第一个Datanode一小部分(4kb)地接收数据,将每一部分写入本地仓库,并同时传输该部分到列表中第二个Datanode。第二个Datanode也是这样,一小部分一小部分地接收数据,写入本地仓库,并同时传给第三个Datanode。最后,第三个Datanode接收数据并存储在本地。因此,Datanode能从流水线式地从前一个节点接收数据,并在同时转发给下一个节点,数据以流水线地方式从前一个Datanode复制到下一个Datanode。
  3. 文件的删除和恢复:当用户或应用程序删除某个文件时,这个文件并没有立刻从HDFS中删除。实际上,HDFS会将这个文件重命名转移/trash目录。只要文件还在/trash目录中,该文件 就可以迅速被恢复。文件在/trash中保存的时间是可配置的,当超过这个时间时,Namenode就会将该文件从名字空间中删除。删除文件会使得该文件相关的数据块被释放。只要被删除的文件还在/trash目录中,用户就可以恢复这个文件。如果用户希望恢复被删除的文件,可以浏览/trash目录于其他的目录没有什么区别,除了一点:在该目录上HDFS会应用一个特殊策略来自动删除文件。目前的默认策略时删除/trashh中保留时间超过6小时文件。

HDFS的API操作

客服端环境准备

  1. 找到资料包路径下的 Windows 依赖文件夹,拷贝 hadoop-3.1.0 到非中文路径(比如 d:\)
  2. 配置HADOOP_HOME环境变量:我的电脑>右键>属性>高级系统设置>环境变量>新建>
    变量:HADOOP_HOME
    值:复制的hadoop路径

    >双击path>

    在最后添加:%HADOOP_HOME%bin

    >回到Hadoop文件夹>双击运行winutils.exe.

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值