在不到1G内存机器上快速搭建一个hadoop环境

最新推荐文章于 2022-11-22 15:48:24 发布

原创

最新推荐文章于 2022-11-22 15:48:24 发布 · 6.3k 阅读

4 ·

CC 4.0 BY-SA版权

本文详细介绍了如何在仅1核1G内存的Linux机器上搭建Hadoop伪分布式集群，通过配置Hadoop参数实现资源的最小化利用。通过这个环境，可以运行MapReduce和YARN，适合简单的开发和测试。

摘要：我们在很多情况下只需要一个配置极简但具备所有功能的hadoop来做一些探索或者调查性等工作，虽然这时候的hadoop不具有生产环境下的强大配置和工业级的可靠性和稳定性但是它的可工作和可运行性已经足够。本文目的是在一个只有1核，cpu频率不到 1.8G，内存1G的机器上快速搭建一个hadoop伪分布式集群。

关键词：极简，hadoop

导言：我想用最新版的hadoop（写本文时是2.5.1）,在一个极其简陋的Linux机器(CPU 1+G, core 1, memory 1G)上跑hdfs, MapReduce和YARN,可以吗？答案是肯定的。只要我们把Hadoop配成伪分布式，各个daemon进程(对YARN而言是namenode[nn],secondary namenode[snn], datanode[dn],resource manager[rm], node manager[nm])需要的内存配置成满足我们需要的极低值，就可以达成目的。虽然不是真正的分布式，但是它与真实的hadoop本质相象性可达到99.99%。比如，我想知道在一个命令行Java应用程序运行Jar或者Java class （不用hadoop本身的hadoop jar XXX.jar ....）来把自己写的wordcount MapReduce程序提交到集群并跑起来需要哪些jar和配置文件或属性。再比如，我们有时在开发时只需要一个可运行hadoop环境验证代码正确性，然后再提交给QA去做正式的测试，那么这种快速极简的hadoop就非常有用。

环境：

机器与操作系统:1台 Linux机器，内存1G,

Java :Oracle JDK1.6.0_45 ,安装位置： /usr/java/jdk1.6.0_45

Hadoop: 版本 2.5.1，示例安装位置: ~/hadoop/hadoop-2.5.1

本示例使用root安装，请根据你的环