HDFS集群的读写流程
HDFS集群三个角色
客户端(提交请求,用户读写数据),NameNode(全局把控,只有一个,协调所有的请求),DataNodes(数据存储,数量可以扩展)

把数据写到HDFS集群上
1、发起一个请求 (shell或java API)得到DataNodes的ip

2、发送第一个block到DataNodes

3、循环发送剩下的blocks,完成后断开流的连接,NameNode记录信息

总结一下:
client 拆分大文件为多个blocks,对于每一个block,NameNode提供DataNodes的地址,DataNodes通过pipeline的方式存储数据
从HDFS集群读数据的流程
DataNode是按排序返回的,默认从最近的DataNode去读取

HDFS的容错机制
错误类型和错误检测


解决读写错误

解决DateNode错误

副本放置策略

