源代码如下:
一、分布式均值与方差计算的mapper
#coding=utf-8
'''
Created on Feb 21, 2011
Machine Learning in Action Chapter 18
Map Reduce Job for Hadoop Streaming
mrMeanMapper.py
@author: Peter Harrington
MapReduce:分布式计算的框架
MapReduce
优点:可在短时间内完成大量工作。
缺点:算法必须经过重写,需要对系统工程有一定的理解。
适用数据类型:数值型和标称型数据。
图15-1的每台机器都有两个处理器,可以同时处理两个map或者reduce任务。如果机器0在map
阶段宕机,主节点将会发现这一点。主节点在发现该问题之后,会将机器。移出集群,并在剩余
的节点上继续执行作业。在一些MapReduce的实现中,在多个机器上都保存有数据的多个备份,
例如在机器。上存放的输人数据可能还存放在机器1上,以防机器。出现问题。同时,每个节点都
必须与主节点通信,表明自己工作正常。如果某节点失效或者工作异常,主节点将重启该节点或
者将该节点移出可用机器池。
主节点控制MapReduce的作业流程;
MapReduce的作业可以分成map任务和reduce任务;
map任务之间不做数据交流,