英文原文地址:https://docs.mongodb.com/v3.2/core/map-reduce-sharded-collections/。
本文章属个人翻译,作个人学习之用,如有雷同,纯属巧合。如有错误之处,欢迎指正。
Map-Reduce与分片集合
Map-reduce支持在分片集合上操作,既可以作为输入,也可以作为输出。该篇文章描述了对分片集合特有的mapReduce行为。
分片集合作为输入
当使用分片集合作为map-reduce的输入时,mongos
会自动并行地把map-reduce任务分配给各个分片。并不需要指定特别的选项,mongos
会等待所有分片完成任务。
分片集合作为输出
如果mapReduce
的out
字段有分片值,MongoDB会用_id字段作为分片键对输出集合分片。
要输出到一个分片集合:
- 若分片集合不存在,MongoDB创建该集合,然后在_id字段上对集合分片。
- 对于新的或者空的分片集合,MongoDB使用map-reduce操作的第一个阶段的结果来创建分布在分片中的初始块。
mongos
并行地把map-reduce后处理任务分配给拥有该块的每个分片。在后处理中,每个分片将会从其他分片中拉取它这个块的结果,运行最终的reduce,然后把输出集合写入到本地。
注意:
- 在后面的map-reduce作业中,MongoDB按需分割块
- 在后处理过程中,对输出集合的块平衡调节自动是阻止的,以避免并发问题。