Hadoop笔记小结

hadoop笔记小结

HDFS是分散存储的
把每个大文件分成小的,
每个小文件分开了 所以要做一个冗余备份
快的大小可以配置dfs.blocksize 老版默认64M新版默认128M
分散到不同的服务器 保证文件不会丢失或损坏

namenode 是主管整个HDFS的,掌管文件系统目录树,处理客户端的请求
Secondarynamenode本意只是分担压力的,算不得是namenode的备份。 只能算namenode的助理,翻不了身的那种。
Datanode 存储数据块 实现真正读写。文件的各个block管理。

HDFS 设计成一次写入 多次读取的,不支持文件修改 但是支持添加。
基本上是设计用来数据分析的 即数据只进不出,

HDFS优点: 有多个副本 容错性 可靠性更强,还有恢复机制
由于是分在多个机器上 所以HDFS选择了移动计算,即把算法下发到各个机器 让它们计算,然后各机器把计算结果返回来。
适合大数据计算 GB TB级别数据。
一次性写入 多次读取 保证一致性。

HDFS缺点:数据访问延迟高
小文件存储不方便
并发写入,文件随机修改
一个文件只能有一个写者
仅仅支持append
占用NameNode大量内存

HDFS的内部工作对客户端保持透明, 客户端请求访问的HDFS都是通过namenode访问的
HDFFS的传输成功,要保证最小的传输成功量,这个是可设置的, 可能在传输过程中有节点出问题 检测到之后就直接

NameNode职责

预写日志操作
磁盘元数据镜像文件 合并了之前所有的操作日志文件

数据与写操作日志文件: 存储在磁盘中
内容就是所有的edits之和还有即将写入的操作的数据。

元数据的CheckPoint机制

间隔要么是一百万的数据 要么是一个小时。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值