分布式存储 HDFS原理

本文介绍了大数据基础知识,重点讲解了分布式存储系统HDFS的工作原理。HDFS通过namenode管理和协调datanode,实现文件的分布式存储,确保数据的安全性和可用性。namenode负责元数据管理,datanode则存储实际数据并定期发送心跳信息。在数据存储过程中,文件被切割为block,并在多台服务器上进行备份,以保证容错性。此外,还详细阐述了namenode的工作原理和元数据持久化过程。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

大数据基础知识

一、什么是大数据

短时间内快速产生的海量多种多样有价值的数据。

大数据的技术:

1、分布式存储:
2、分布式计算:
1)分布式批处理:
	当数据积累一定的时间后(假设一个月),进行统一的处理。
2)分布式流处理
分布式流处理是一个实时的处理。即数据生成后立即处理。
例子:  11.11天猫大屏幕     QQ实时在线的分布情况
3、机器学习

凡是预测类的都是机器学习。

分布式存储

简单案例:假如你要存储10PB的一个视频文件,自己一个人的电脑存储不了,需要存储在多个服务器上,每一个服务器就是一个datanode,当你需要获取文件时,逐一访问效率太低,可以找一个中间人来存放文件在哪台服务器的信息,通过信息可以快速的找到文件。这个中间人就是namenode,存储的有关文件的信息就是元数据。为了数据安全,每一个小的视频(存储单元)复制一份存放到不同服务器上,当有服务器停止运行时,可以通过访问备份来寻找到自己想要的数据,这种存储方式叫做分布式存储。

系统学习分布式存储 过程(HDFS原理)

1 如果要上传一个大文件,首先要计算大文件的block数量,block数量=大文件的大小/128M(一般采用128M为一个block块的大小)
2 clie

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值