MapReduce笔记-2

最新推荐文章于 2025-01-21 22:38:54 发布

beeworkshop

最新推荐文章于 2025-01-21 22:38:54 发布

阅读量372

点赞数

CC 4.0 BY-SA版权

分类专栏：大数据文章标签： mapreduce

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/beeworkshop/article/details/102009667

大数据专栏收录该内容

16 篇文章

订阅专栏

本文介绍在Windows环境中配置Hadoop客户端的过程，包括放置必要文件至指定目录，以及在Eclipse中集成Hadoop插件的方法。同时，探讨了Hadoop作业的数据切片策略，压缩文件处理限制，切片数量与Map任务的关系，以及Job的同步与异步提交方式。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

在windows上配置hadoop客户端

将winutils.exe放到windows中%HADOOP_HOME%\bin目录下
将hadoop.dll放到windows中c:/windows/system32目录下
将hadoop-eclipse-plugin-2.9.2.jar放入eclipse\dropins

对输出数据切片

对于压缩文件无法切片
切片的数量决定了Map的数量
切片的尺寸
算法：

size = Math.max(minSize, Math.min(maxSize, blockSize))；

counter的名称不能太长，超长的部分会截断。
setup和cleanup在map阶段都只执行一次，但可能多个map使用一个jvm来运行。
map作业每次处理一行原文件，如果split大小小于当前行的长度，也不会导致行丢失。
每个job允许用户自定义的counter上限为120，可以进行修改。

[mapred-site.xml]
mapreduce.job.counters.limit

查看集群的当前配置

hdfs getconf -confKey dfs.blocksize

这里的“ -confKey ”指xml配置文件中的< property >.< name >

在NameNode上开启historyserver
historyserver主要记录曾经执行过的Job，以备查。

mr-jobhistory-daemon.sh start historyserver

同步异步Job

异步Job
Job.submit()
Job提交之后立即返回，异步完成Job。
同步Job
Job.waitForCompletion()
Job提交之后等待完成。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。