- 在windows上配置hadoop客户端
- 将winutils.exe放到windows中%HADOOP_HOME%\bin目录下
- 将hadoop.dll放到windows中c:/windows/system32目录下
- 将hadoop-eclipse-plugin-2.9.2.jar放入eclipse\dropins
- 对输出数据切片
- 对于压缩文件无法切片
- 切片的数量决定了Map的数量
- 切片的尺寸
算法:
size = Math.max(minSize, Math.min(maxSize, blockSize));
- counter的名称不能太长,超长的部分会截断。
- setup和cleanup在map阶段都只执行一次,但可能多个map使用一个jvm来运行。
- map作业每次处理一行原文件,如果split大小小于当前行的长度,也不会导致行丢失。
- 每个job允许用户自定义的counter上限为120,可以进行修改。
[mapred-site.xml]
mapreduce.job.counters.limit
- 查看集群的当前配置
hdfs getconf -confKey dfs.blocksize
这里的“ -confKey ”指xml配置文件中的< property >.< name >
- 在NameNode上开启historyserver
historyserver主要记录曾经执行过的Job,以备查。
mr-jobhistory-daemon.sh start historyserver
- 同步异步Job
- 异步Job
Job.submit()
Job提交之后立即返回,异步完成Job。 - 同步Job
Job.waitForCompletion()
Job提交之后等待完成。