5、大数据存储与处理技术解析

大数据存储与处理技术解析

1. Hadoop HDFS 概述

HDFS 是为在商用硬件集群上存储具有流式数据访问模式的超大型文件而设计的文件系统。其定义表明它能处理高达 PB 级的“超大型文件”,“流式数据访问”意味着它最适合“一次写入、多次读取”的处理模式,不过用户也可使用 Kudu 处理快速数据(插入/更新)。此外,使用“商用硬件”意味着构建 Hadoop 生态系统时无需昂贵且高度可靠的硬件,市场上常见的硬件即可。HDFS 不存在单点故障问题,因为其设计目标之一就是解决该问题,所以当 Hadoop 集群中的某个工作站出现故障时,用户不会受到明显影响。

但需注意,当应用程序需要低延迟数据访问(在几十毫秒范围内)时,HDFS 可能不是合适的选择,而 HBase 和 Kudu 则是合适的工具。如果数据集包含大量小文件,使用 HDFS 存储数据也不是好选择,因为 HDFS 将文件存储在通常设置为 128 MB(默认)或 256 MB 的块中,这会导致存储浪费。HBase 是存储小文件的近乎完美的解决方案,它可以通过行键提供快速的临时访问。最后,如果应用程序需要多个写入者或任意文件修改,也不应使用 HDFS,因为 HDFS 假定数据是一次写入、多次读取的,写入是仅追加的方式,不适合多个写入者的需求。

2. Hadoop HDFS 基本概念
  • 块(Blocks) :不同的文件系统有各自的块,即读写的最小数据量。硬盘驱动器通常有 512 字节的块,而 HDFS 的默认块大小为 128 MB 或 256 MB,且可配置。如果文件的实际大小小于默认块大小,它将占用磁盘上的实际大小,而不是整个块。使用块,无法存储在单个磁盘
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值