为了补充技术上的落差,开始学习hadoop,首先搭建一个学习的平台。
我用的是vm的虚拟机,ubuntu server的15.10版本,hadoop版本是2.2.0。
已经装好的jdk和ssh,
首先设置好ssh的免密码登录,否则会很麻烦,相关设置请自行百度。
首先上传hadoop的包到虚拟机。
然后解压缩到我创建的cloud目录中,
首先修改hadoop-env.sh文件,需要修改JAVA_HOME指向的内容,如果不改,启动会失败,我试过,必须直接指明jdk的目录。
然后修改core-site.xml文件,其中192.168.31.13是虚拟机的ip地址,下面是hadoop的一个目录(不是临时目录,很重要,可以不存在,启动的时候会创建),
然后修改hdfs-site.xml,value为1表示只保留一份副本,因为是单机模式。
然后修改mapred-site.xml,这个文件是不存在的,存在的是mapred-site.xml.template,
你需要将template的文件修改为xml的文件,修改其中的内容,如下
然后修改yarn-site.xml,其中h3是我这台虚拟机的hostname
这样基本上就配置完成了。
然后格式化hdfs,如果不执行下面的步骤,直接启动hadoop的话,namenode会启动失败。
hadoop namenode -format
看到这样的内容表示格式化成功。
最后使用sbin下的start-all.sh启动hadoop就可以了。
虽然这个脚本被标示为过期了,不过暂时还是可以使用的。
使用jps查看启动的情况,成功。
hadoop,我来了。