MapReduce笔记-2

本文介绍在Windows环境中配置Hadoop客户端的过程,包括放置必要文件至指定目录,以及在Eclipse中集成Hadoop插件的方法。同时,探讨了Hadoop作业的数据切片策略,压缩文件处理限制,切片数量与Map任务的关系,以及Job的同步与异步提交方式。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

  1. 在windows上配置hadoop客户端
  • 将winutils.exe放到windows中%HADOOP_HOME%\bin目录下
  • 将hadoop.dll放到windows中c:/windows/system32目录下
  • 将hadoop-eclipse-plugin-2.9.2.jar放入eclipse\dropins
  1. 对输出数据切片
  • 对于压缩文件无法切片
  • 切片的数量决定了Map的数量
  • 切片的尺寸
    算法:
size = Math.max(minSize, Math.min(maxSize, blockSize))
  • counter的名称不能太长,超长的部分会截断。
  • setup和cleanup在map阶段都只执行一次,但可能多个map使用一个jvm来运行。
  • map作业每次处理一行原文件,如果split大小小于当前行的长度,也不会导致行丢失。
  • 每个job允许用户自定义的counter上限为120,可以进行修改。
[mapred-site.xml]
mapreduce.job.counters.limit
  1. 查看集群的当前配置
hdfs getconf -confKey dfs.blocksize

这里的“ -confKey ”指xml配置文件中的< property >.< name >

  1. 在NameNode上开启historyserver
    historyserver主要记录曾经执行过的Job,以备查。
mr-jobhistory-daemon.sh start historyserver
  1. 同步异步Job
  • 异步Job
    Job.submit()
    Job提交之后立即返回,异步完成Job。
  • 同步Job
    Job.waitForCompletion()
    Job提交之后等待完成。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值