hadoop笔记小结
HDFS是分散存储的
把每个大文件分成小的,
每个小文件分开了 所以要做一个冗余备份
快的大小可以配置dfs.blocksize 老版默认64M新版默认128M
分散到不同的服务器 保证文件不会丢失或损坏
namenode 是主管整个HDFS的,掌管文件系统目录树,处理客户端的请求
Secondarynamenode本意只是分担压力的,算不得是namenode的备份。 只能算namenode的助理,翻不了身的那种。
Datanode 存储数据块 实现真正读写。文件的各个block管理。
HDFS 设计成一次写入 多次读取的,不支持文件修改 但是支持添加。
基本上是设计用来数据分析的 即数据只进不出,
HDFS优点: 有多个副本 容错性 可靠性更强,还有恢复机制
由于是分在多个机器上 所以HDFS选择了移动计算,即把算法下发到各个机器 让它们计算,然后各机器把计算结果返回来。
适合大数据计算 GB TB级别数据。
一次性写入 多次读取 保证一致性。
HDFS缺点:数据访问延迟高
小文件存储不方便
并发写入,文件随机修改
一个文件只能有一个写者
仅仅支持append
占用NameNode大量内存
HDFS的内部工作对客户端保持透明, 客户端请求访问的HDFS都是通过namenode访问的
HDFFS的传输成功,要保证最小的传输成功量,这个是可设置的, 可能在传输过程中有节点出问题 检测到之后就直接
NameNode职责
预写日志操作
磁盘元数据镜像文件 合并了之前所有的操作日志文件
数据与写操作日志文件: 存储在磁盘中
内容就是所有的edits之和还有即将写入的操作的数据。
元数据的CheckPoint机制
间隔要么是一百万的数据 要么是一个小时。