0911 hfds的java api shuffle大致过程

最新推荐文章于 2022-11-11 08:55:55 发布

原创最新推荐文章于 2022-11-11 08:55:55 发布 · 337 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文详细介绍了HDFS的Java API操作，包括创建、删除、列出、重命名和上传文件等，并深入解析了MapReduce的Shuffle过程，从切片、映射、溢写、排序到数据拉取，全面覆盖了大数据处理的关键环节。

1 hdfs java API

new Configuration(true) 加载配置信息ture参数表示加载默认配置信息

FileSystem.get(conf) 获取FileSystem对象对hdfs文件系统进行操作

fs.mkdir(path) 创建文件路径

fs.delete(PATH,boolean) 删除路径 ture可以迭代删除

fs.listStatus(path) 路径下文件列表

fs.rename(path) 改名 or 更换路径

fs.create(path) 上传文件本地流往hdfs的输出流上写操作

IOUtils.copyBytes(fis, fos, 1024); 专门进行读写操作的工具类输入流输出流字节大小

fs.open(path) 打开文件下载hdfs上的文件 hdfs输入流本地输出流

fs.getFileStatus(path) 获取文件元数据

fs.getFileBlockLocations(fss,0 ,len ) 文件的元数据信息字节起始位置读取长度获取在这个长度内数据在那个DN上的信息

FSDataInputStream.seek(0) 参数是字节偏移量从0 到字节末尾即可读取整个文件

2 shuffle 大致过程

mr首先将文件进行逻辑切块（默认一个block是一块），一个切片对应一个map任务，map默认按行读取切片内容按照kv形式发给map任务<"偏移量","字符串"> map进行计算完成后发给环形缓冲区在缓冲区中计算分区编号（key的hash对reduce任务取模）默认比例0.8 默认缓冲区100M 当环形缓冲区达到80M大小时发生溢写由内存写入到磁盘在溢写的过程中对分区编号进行排序在每个分区内对key进行快速排序（字典排序）如果溢写产生的小文件超过3个则进行归并归并后也是分区编号有序分区内字典排序当一个map处理完一个切片数据后所有的reduce任务来该map的机器上通过http get请求各自分区编号的数据

下载到reduce的本地当所有的map处理完数据 reduce计算则开始

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。