HDFS分布式文件系统基础

文件系统是数据存储和组织的基础,而面对海量数据的挑战,传统的单机文件系统不再适用。HDFS(Hadoop Distributed File System)作为一种分布式存储系统,解决了传统文件系统在扩展性、性能和容错性上的问题。HDFS采用主从架构,文件分块存储并带有副本机制,确保高可用性和数据安全。此外,元数据管理使得文件定位快速有效。HDFS适用于大数据批处理场景,尤其适合大文件、一次写入多次读取的应用,但不适用于小文件和低延迟需求。其设计目标和特性使其成为大数据存储的理想选择。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

文件系统定义

  • 文件系统是一种存储和组织数据的方法,实现了数据的存储、分级组织、访问和获取等操作,使得用户对文件访问和查找变得容易
  • 文件系统使用树型目录的抽象逻辑概念替代了硬盘等物理设备使用数据块的概念,用户不必关心数据底层存在硬盘哪里,只需要纪柱这个文件的所属目录和文件名即可
  • 文件系统通常使用硬盘和光盘这样的存储设备,并维护文件在设备中的物理位置

传统常见的文件系统

  • 所谓传统常见的文件系统更多指的单机的文件系统,也就是底层不会横跨多台机器实现。
  • 这些文件系统的共同特征包括:
  1. 带有抽象的目录树结构,树都是从/根目录开始往下蔓延
  2. 树中节点分为两类:目录和文件
  3. 从根目录开始,节点路径具有唯一性

数据、元数据

  • 数据
    指存储的内容本身,比如文件、视频、图片等,这些数据底层最终是存储在磁盘等存储介质上的,一般用户无需关心,只需要基于目录树进行增删改查即可,实际针对数据的操作由文件系统完成。
  • 元数据
    元数据(metadata)又称之为解释性数据,记录数据的数据
    文件系统元数据一般指文件大小、最后修改时间、底层存储位置、属性、所属用户、权限等信息。

海量数据存储遇到的问题

  • 成本高
    传统存储硬件通用性差,设备投资加上后期维护、升级扩容的成本非常高。
  • 如何支撑高效率的计算分析
    传统存储方式意味着数据:存储是存储,计算是计算,当需要处理数据的时候把数据
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

火眼猊

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值