1.使用HDFS提供的客户端,调用分布式文件系统对象中的Open()函数来读取所需数据。
2.客户端向名称节点请求下载文件,名称节点通过查询元数据,找到文件所在的DateNode地址。
3.挑选一台DateNode服务器开始以数据流的形式读取数据。
4.DateNode开始传输数据给客户端,当第一个数据块读取完毕后,查找下一个离客户端最近的数据块,返回的时候会以远近进行排序。
5.若数据过大,还有剩余部分未提取,会重复上述步骤直到全部读完。
6.关闭文件,结束流程。
1.使用HDFS提供的客户端,调用分布式文件系统对象中的Open()函数来读取所需数据。
2.客户端向名称节点请求下载文件,名称节点通过查询元数据,找到文件所在的DateNode地址。
3.挑选一台DateNode服务器开始以数据流的形式读取数据。
4.DateNode开始传输数据给客户端,当第一个数据块读取完毕后,查找下一个离客户端最近的数据块,返回的时候会以远近进行排序。
5.若数据过大,还有剩余部分未提取,会重复上述步骤直到全部读完。
6.关闭文件,结束流程。