这边拿到的作业内容是一个8行内容的文本文件,要求的输出内容是
具体设置为数据自由切片split、Reduce任务数设置为2,且用户编写了combine函数
因为课程原因刚刚接触的HDFS,有一些问题想请教一下区内大佬:
1.对于固定的比如说2个Reduce任务,应该设置多少个Map任务合适?为什么?
2.如果用户定义的combine函数是在shuffle过程中执行,那Reduce任务输出的时候还会再combine一次吗?
3.Combine函数执行前有没有归并的操作?
这边拿到的作业内容是一个8行内容的文本文件,要求的输出内容是
具体设置为数据自由切片split、Reduce任务数设置为2,且用户编写了combine函数
因为课程原因刚刚接触的HDFS,有一些问题想请教一下区内大佬:
1.对于固定的比如说2个Reduce任务,应该设置多少个Map任务合适?为什么?
2.如果用户定义的combine函数是在shuffle过程中执行,那Reduce任务输出的时候还会再combine一次吗?
3.Combine函数执行前有没有归并的操作?