maps 和 reduces 的数量

本文介绍了Hadoop中MapReduce任务的调度策略与优化方法,包括如何合理设置map和reduce任务的数量,以达到集群资源的最佳利用。

原文:http://wiki.apache.org/hadoop/HowManyMapsAndReduces

1、增加task的数量,一方面增加了系统的开销,另一方面增加了负载平衡和减少了任务失败产生的开销

2、map task的数量控制是比较subtle,因为 mapred.map.tasks的参数值并不能直接控制map的数量,它只是给InputFormat一个提示。而InputFormat中的 InputSplit的大小,决定了一个job拥有多少个map。默认 Input Split的大小是64m(与dfs.block.size的默认值相同)。然而,如果输入的数据量巨大,那么默认的64M的block会有几万甚至几十万的map task,集群的网络传输会很大,最严重的是给Job Tracker的调度、队列、内存都会带来很大的压力。mapred.min.split.size这个配置决定了每个Input Split的最小值,用户可以修改这个参数,从而改变map task的数量

3、一个恰当的map 并行度是大每每个节点 10 -- 100个map,不是说越少就越好,因为map在初始化过程需要一定的时间,所以每个map最少执行一分钟比较好。

4、reduce.task的数量由mapred.reduce.tasks来决定,默认值是1

5、合适的reduce.task数量是 0.95 或 1.75 * (nodes * mapred.tasktracker.tasks.maximun)。

其中 mapred.tasktracker.tasks.reduce.maximum的数量一般设置为各节点 cpu core数目,即能同时计算的 slot (CPU插槽)数量。

对于0.95,当map结束时,所有的reduce能够立即启动;

对于1.75,较快的节点结束第一轮 reduce后,可以开始第二轮的reduce任务,从而提高负载均衡。

代码转载自:https://pan.quark.cn/s/f87b8041184b Language: 中文 欢迎来到戈戈圈! 当你点开这个存储库的时候,你会看到戈戈圈的图标↓ 本图片均在知识共享 署名-相同方式共享 3.0(CC BY-SA 3.0)许可协议下提供,如有授权遵照授权协议使用。 那么恭喜你,当你看到这个图标的时候,就代表着你已经正式成为了一名戈团子啦! 欢迎你来到这个充满爱希望的大家庭! 「大家创造更多快乐,人们一起改变世界。 」 戈戈圈是一个在中国海南省诞生的创作企划,由王戈wg的妹妹于2018年7月14日正式公开。 戈戈圈的创作类型广泛,囊括插画、小说、音乐等各种作品类型。 戈戈圈的目前成员: Contributors 此外,支持戈戈圈及本企划的成员被称为“戈团子”。 “戈团子”一词最初来源于2015年出生的名叫“团子”的大熊猫,也因为一种由糯米包裹着馅料蒸熟而成的食品也名为“团子”,不仅有团圆之意,也蕴涵着团结友爱的象征意义大家的美好期盼,因此我们最终于2021年初决定命名戈戈圈的粉丝为“戈团子”。 如果你对戈戈圈有兴趣的话,欢迎加入我们吧(σ≧︎▽︎≦︎)σ! 由于王戈wg此前投稿的相关视频并未详细说明本企划的信息,且相关视频的表述极其模糊,我们特此创建这个存储库,以文字的形式向大家介绍戈戈圈。 戈戈圈自2018年7月14日成立至今,一直以来都秉持着包容开放、谐友善的原则。 我们深知自己的责任使命,始终尊重社会道德习俗,严格遵循国家法律法规,为维护社会稳定公共利益做出了积极的贡献。 因此,我们不允许任何人或组织以“戈戈圈”的名义在网络平台或现实中发布不当言论,同时我们也坚决反对过度宣传戈戈圈的行为,包括但不限于戈戈圈无关的任何...
内容概要:本文详细介绍了一个基于YOLOv8的血细胞智能检测系统全流程开发指南,涵盖从环境搭建、数据准备、模型训练验证到UI交互系统开发的完整实践过程。项目利用YOLOv8高精度、高速度的优势,实现对白细胞、红细胞血小板的自动识别分类,准确率超过93%,单张图像检测仅需0.3秒。通过公开或自建血细胞数据集,结合LabelImg标注工具Streamlit开发可视化界面,构建了具备图像上传、实时检测、结果统计异常提示功能的智能系统,并提供了论文撰写成果展示建议,强化其在医疗场景中的应用价值。; 适合人群:具备一定Python编程深度学习基础,从事计算机视觉、医疗AI相关研究或项目开发的高校学生、科研人员及工程技术人员,尤其适合需要完成毕业设计或医疗智能化项目实践的开发者。; 使用场景及目标:①应用于医院或检验机构辅助医生进行血涂片快速筛查,提升检测效率一致性;②作为深度学习在医疗影像领域落地的教学案例,掌握YOLOv8在实际项目中的训练、优化部署流程;③用于学术论文写作项目成果展示,理解技术临床需求的结合方式。; 阅读建议:建议按照“数据→模型→系统→应用”顺序逐步实践,重点理解数据标注规范、模型参数设置UI集成逻辑,同时结合临床需求不断优化系统功能,如增加报告导出、多类别细粒度分类等扩展模块。
基于蒙特卡洛,copula函数,fuzzy-kmeans获取6个典型场景进行随机优化多类型电动汽车采用分时电价调度,考虑上级电网出力、峰谷差惩罚费用、风光调度、电动汽车负荷调度费用网损费用内容概要:本文围绕多类型电动汽车在分时电价机制下的优化调度展开研究,采用蒙特卡洛模拟、Copula函数模糊K-means聚类方法获取6个典型场景,并在此基础上进行随机优化。模型综合考虑了上级电网出力、峰谷差惩罚费用、风光可再生能源调度、电动汽车负荷调度成本以及电网网损费用等多个关键因素,旨在实现电力系统运行的经济性稳定性。通过Matlab代码实现相关算法,验证所提方法的有效性实用性。; 适合人群:具备一定电力系统基础知识Matlab编程能力的研究生、科研人员及从事新能源、智能电网、电动汽车调度相关工作的工程技术人员。; 使用场景及目标:①用于研究大规模电动汽车接入电网后的负荷调控策略;②支持含风光等可再生能源的综合能源系统优化调度;③为制定合理的分时电价政策及降低电网峰谷差提供技术支撑;④适用于学术研究、论文复现实际项目仿真验证。; 阅读建议:建议读者结合文中涉及的概率建模、聚类分析优化算法部分,动手运行并调试Matlab代码,深入理解场景生成随机优化的实现流程,同时可扩展至更多元化的应用场景如V2G、储能协同调度等。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值