HDFS分布式文件存储系统详解

本文详细介绍了HDFS(Hadoop Distributed File System),包括其作为分布式文件系统的特性,如高容错性、可扩展性和跨平台等。文章探讨了HDFS的核心设计,如Master/Slave架构,数据块、副本策略、机架感知功能以及安全模式。此外,还讲解了如何通过配置文件和命令调整数据块的备份数量,以及如何管理HDFS的安全模式和负载均衡。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

HDFS简介

一、HDFS:Hadoop Distributed File System

           1. 一个分布式文件系统 
           2. 基于流数据模式访问和处理超大文件的需求而开发的
           3. 适合应用在大规模数据集上
         
优点:
                 1.处理超大文件
                   能用来存储管理PB级的数据   1PB = 1024TB
                 2.处理非结构化数据、半结构化数据、结构化数据
                   流式的访问数据
                   一次写入、多次读取
                 3.运行于廉价的商用机器集群上
                   可运行在低廉的商用硬件集群上
                   故障时能继续运行且不让用户察觉到明显的中断

局限性/缺点:

            1. 不适合处理低延迟数据访问
            HDFS是为了处理大型数据集分析任务的,主要是为了达到高的数据吞吐量而设计的
            对于低延时的访问需求,HBase是更好的选择

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值