大数据平台中 Hadoop 性能的实验分析
1. 物理配置与基准测试
1.1 物理配置
为实验采用的物理配置概况如下表所示:
| 物理机器信息 | 详情 |
| ---- | ---- |
| 处理器 | Xeon E5 - 2603 v3 |
| 内存 | 64 G |
| 操作系统 | CentOS 7.1 |
| 磁盘 | dell - 10 k - 2 TB |
1.2 基准测试
从 Hadoop 示例应用程序中测试了几个基准测试,包括 PI、TestDFSIO 和 TeraSort:
- PI :是一个使用准蒙特卡罗方法估算圆周率的 Map/Reduce 程序。其映射任务相互独立,单个归约任务从映射任务收集的数据很少。
- TestDFSIO :是一个 Map/Reduce 程序,用于从大文件读写随机数据,主要用于测试集群的 I/O 速度。
- TeraSort :由 Jim Gray 创建的标准基准测试,是一个两阶段的 Hadoop 工作负载,对给定数据文件中的所有单词进行原地排序。
2. 场景设计
设计了三个实验场景来检查 Hadoop 的性能,运行 I/O 密集型和 CPU 密集型实验,其中 TestDFSIO 是 I/O 密集型作业,TeraSort 和 PI 是 CPU 密集型作业。通过 Zabbix 获取内存使用、CPU 利用率、磁盘读写速度、网络输入/输出吞吐量等指标,并选择典型指标分
超级会员免费看
订阅专栏 解锁全文
954

被折叠的 条评论
为什么被折叠?



