chapter15 机器学习之大数据与mapreduce

本文详细介绍了如何使用MapReduce进行分布式均值与方差的计算,以及在机器学习中实现PeHASOS算法和MapReduce版本的支持向量机(SVM)。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

源代码如下:

一、分布式均值与方差计算的mapper

#coding=utf-8

'''
Created on Feb 21, 2011
Machine Learning in Action Chapter 18
Map Reduce Job for Hadoop Streaming 
mrMeanMapper.py
@author: Peter Harrington

MapReduce:分布式计算的框架
MapReduce

优点:可在短时间内完成大量工作。
缺点:算法必须经过重写,需要对系统工程有一定的理解。
适用数据类型:数值型和标称型数据。


    图15-1的每台机器都有两个处理器,可以同时处理两个map或者reduce任务。如果机器0在map
阶段宕机,主节点将会发现这一点。主节点在发现该问题之后,会将机器。移出集群,并在剩余
的节点上继续执行作业。在一些MapReduce的实现中,在多个机器上都保存有数据的多个备份,
例如在机器。上存放的输人数据可能还存放在机器1上,以防机器。出现问题。同时,每个节点都
必须与主节点通信,表明自己工作正常。如果某节点失效或者工作异常,主节点将重启该节点或
者将该节点移出可用机器池。


主节点控制MapReduce的作业流程;
MapReduce的作业可以分成map任务和reduce任务;
map任务之间不做数据交流,
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

文宇肃然

精神和物质鼓励你选一个吧

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值