
Hadoop
Hadoop相关实战练习
编程理想国
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
ReduceTask工作机制与MapReduce分区
ReduceTask工作机制与MapReduce分区ReduceTask工作机制copy阶段:将Map任务的结果拉取到reduce节点merge阶段:将所有Map任务的结果进行合并sort阶段:对合并后的结果进行归并排序reduce方法:对排序后的结果按key调用reduce方法ReduceTask并行度ReduceTask的数量可以手动设置:job.setNumReduceTasks(2);Tips::ReduceTask=0,表示没有Reduce阶段ReduceTask默认原创 2020-10-09 22:07:45 · 346 阅读 · 0 评论 -
【Hadoop】MapTask运行机制
MapTask运行机制MapTask流程Tips:Mr切片是逻辑切分,HDFS的分块是物理切分split与block是一对一的关系map阶段所有的排序都是针对key进行排序,不会针对value流程分析:TextInputFormat读取文件,并调用getSplits()函数对文件进行逻辑分片,一个split对应一个blockRecordReader读取一个split,调用一次map函数,并将结果输出到环形缓冲区缓冲区内部对结果进行分区(partition),分区规则是key的has原创 2020-10-07 18:15:27 · 304 阅读 · 0 评论 -
Hadoop权威指南PDF分享
Hadoop权威指南PDF分享链接:https://pan.baidu.com/s/1oF0HPcePFc2pWF29LXsO1Q提取码:tqxt如果链接失效,加我领取:yp2595809239原创 2020-10-06 15:59:31 · 4166 阅读 · 1 评论 -
Hadoop(一)守护进程
NameNode位于HDFS的主端,指导从端的DataNode执行底层的IO任务,它跟踪文件如何被分割成文件块,而这些文件块又被哪些节点存储,以及分布式文件系统的整体运行状态是否正常。运行NameNode会消耗大量的内存和IO资源,因此驻留NameNode的服务器不会存储数据或者执行计算任务,容易造成Hadoop集群的单点失效问题 。DataNode每一个集群的从节点都会驻留一个DataNod...原创 2018-12-22 10:18:01 · 547 阅读 · 0 评论 -
Hadoop(二)HDFS常用文件命令
hadoop fs -ls / 查看HDFS根目录下的文件列表hadoop fs -lsr / 查看所有文件和子目录hadoop fs -mkdir 创建目录hadoop fs -put 上传文件到HDFShadoop fs -get 从HDFS获取文件到本地hadoop fs -cat 显示文件数据...原创 2018-12-22 10:48:13 · 401 阅读 · 0 评论 -
Hadoop之HDFS文件操作Java实现
新建一个Java工程导入hadoop相关包,具体为hadoop/share/common/lib、hadoop/share/common/hadoop-common-2.6.1.jar、hadoop/share/hdfs/lib以及hadoop/share/hdfs/hadoop-hdfs-2.6.1.jarpublic class HdfsClient { public stat...原创 2019-02-02 20:42:17 · 1649 阅读 · 0 评论