大数据与在线学习的安全与性能优化
1. MapReduce 系统性能优化
在大数据处理中,MapReduce 系统的性能优化至关重要。以下是不同因素下作业完成时间的实验报告:
| 应用详情 | 平台 | 完成时间 (ms) |
| — | — | — |
| WC 无组合器 | Cloudera (4 Gb RAM) | 156,803 |
| | 多节点集群 | 162,970 |
| WC 有组合器 | Cloudera (4 Gb RAM) | 155,542 |
| | 多节点集群 | 158,746 |
| WC 有多归约器和组合器 | Cloudera (4 Gb RAM) | 103,368 |
| | 多节点集群 | 143,659 |
| WC 输入分割为 1 GB | Cloudera (4 Gb RAM) | 135,888 |
| | 多节点集群 | 150,035 |
从表格数据可以看出,不同配置下作业完成时间存在差异。例如,使用多归约器和组合器在 Cloudera 平台上能显著减少作业完成时间。
数据本地性是主要关注点之一,动态槽分配基于数据感知的映射和归约槽分配与重新分配。组合算法在 WordCount 程序的集群中平均能提升约 60%的性能。
对于异常节点检测模块,它能动态通知集群中的异常节点,并在检测到的同时将其停用。虽然执行检测算法时会给集群带来一些负载,但在高负载情况下,与不消除异常节点的估计执行时间相比,这种负载可以忽略不计。
修改后的算法有望优化 MapReduce 系统的整体性能,从而高效实现推测执
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



