hadoop学习之hadoop优缺点

最新推荐文章于 2024-06-11 10:01:38 发布

原创最新推荐文章于 2024-06-11 10:01:38 发布 · 1.1k 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

HDFS是一种分布式文件系统，适用于大规模数据存储和分析。它通过多副本提高容错性，适合PB级数据处理，但不支持文件修改，适用于一次写入、多次读取的场景。HDFS在廉价服务器上构建，具有高容错性和一致性，但不适合小文件存储和快速数据访问。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

hdfs是一个文件系统，通过目录树来定位资源，也是分布式的，通过很多个服务器来实现功能。
与window的ntfs文件系统同是文件系统，但是原理不同。

hdfs的设计适合一次写入，多次读出的场景，但是不支持文件的修改。
不适合网盘的应用（网盘需要下载和删除），适合用来数据的分析。
hdfs 优点：

高容错性：通过增加副本的形式，来提高容错性，而且数据自动保存多个副本。
副本丢失以后，可以自动恢复。
适合大数据处理：数据规模达到pb级别。
文件数量可以达到百万之多。
流式数据访问：一次写入，多次读取，不可更改，只可追加
能保持数据的一致性可构建在廉价服务器
可构建在廉价服务器

hadoop缺点：

不适合快速数据的存储
无法高效的对大量的小文件进行存储。效率非常低
寻道的时间非常低
访问时间与传输时间应该在一定的比例中，
访问时间指的是寻找文件或者存放文件的时间，
传输时间指的是客户端到hdfs系统传输文件的时间
一个文件只能一个线程写，只支持数据的追加

hadoop块大小为什么是128m?
在物理是分块存储（block）
Hadoop2.x以上都是128m,在集群运行的是128m,在本地运行的时候是64m

文件的寻址时间为传输时间的1%的时候，为最佳状态，寻址时间一般为10ms,
所以最佳的传输时间为10ms/1%为1000ms，也就是1s
目前的硬盘传输速率是100m/s，所以文件的大小在100m左右的时候，传输速率较高。

传输时间与文件的大小有关。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。