最近实验室接到一个需要使用Hadoop集群的任务,于是终于有机会接触到很火很热的所谓大数据了。还记得刚开始玩hadoop得时候他还没有满一岁,转眼现在都已经2.6啦~。真是一切都在变唯有自己不会抛弃自己,不bb了开始正题。
实验室采用VMware ESXi 将一个小型机服务器虚拟化出10个centos 6.5的虚拟主机。我在这个基础上将这10个主机配置成了hadoop集群,发现了一个很不错的产品HDP。感兴趣的同志们可以尝试下,他是一个企业级的Hadoop平台,集成了Hadoop生态系统中的很多组件。
下面记录了我在自己的pro上安装配置Hadoop和eclipse的过程。
环境介绍
我是用的是OS X YOSEMITE 10.10,默认安装了Java,版本是1.6.0
下载Hadoop
下载地址:http://www.apache.org/dyn/closer.cgi/hadoop/common/ Hadoop官网
打开上面地址选择一个镜像地址即可以下载,我下载的是最新版本2.6.0,因为在HDP2.2中安装的都是hadoop2.6 为了保持一致。
下载完 解压在/Users/demontf/ 下面重命名为hadoop(原为hadoop2.6.0)
配置SSH
默认mac是没有开启远程访问的,进入系统偏好设置->共享->远程登录 将其勾选上。
现在打开控制台输入如下命令测试
ssh localhost
如果可以登录的表示开启成功,下面配置免密码登录,否则后面启动hadoop的时候会非常麻烦总要输入密码
cd //打开当前用户根目录
cd .ssh //该目录隐藏了 可以直接打开
ssh-keygen -t rsa//一直按回车 全部默认 此时目录下会生成两个文件id_rsa 和 id_rsa.pub 。这就是所谓非对称加密的私钥和公钥,然后将公钥拷贝到授权文件中去(默认mac中是没有授权文件的)
cat id_rsa.pub > authorized.keys//存在authorized.keys文件
or
cp id_rsa.pub authorized.keys//不存在authorized.keys文件
此时在ssh localhost 就不用输入密码登录了~~
配置Hadoop
配置的用处就是可以在控制台直接输入hadoop相关命令,同时还需要配置3个文件可以帮助hadoop正常运行。
配置环境变量
export HADOOP_HOME=/Users/demontf/hadoop
export PATH=$PATH:$HADOOP_HOME/bin
在
控制台输入上面两行命令,使用 echo $PATH 可以查看已将hadoop添加到环境变量中
配置hadoop-env.sh
打开/Users/demontf/hadoop/etc/hadoop 目录下的 hadoop-env.sh
主要是修改里面的JAVA_HOME,因为我echo $JAVA_HOME 发现什么也没有输出,所以感觉mac 默认没有写JAVA_HOME
export JAVA_HOME=/Library/Java/Home //替换掉原来的${JAVA_HOME} 并去掉注释
配置core-site.xml
<configuration>
<property>
<name>hadoop.tmp.dir</name>
<value>/Users/demontf/hadoop/tmp/hadoop-${user.name}</value>
<description>A base for other temporary directories.</description>
</property>
<property>
<name>fs.default.name</name>
<value>hdfs://localhost:8020</value>
</property>
</configuration>
<configuration>
<property>
<name>dfs.replication</name>
<value>1</value>//不重复复制
</property>
</configuration>
配置maperd-site.xml
<configuration>
<property>
<name>mapred.job.tracker</name>
<value>localhost:8021</value>
</property>
<property>
<name>mapred.tasktracker.map.tasks.maximum</name>
<value>2</value>
</property>
<property>
<name>mapred.tasktracker.reduce.tasks.maximum</name>
<value>2</value>
</property>
</configuration></span>
格式化HDFS
HADOOP_HOME/bin/hadoop namenode -format
启动Hadoop
运行hadoop目录下sbin中的start-all.sh即可启动 随后你会发现mac中开启了五个java进程
因为配置的是伪分布式,单点模式所以NameNode、SecondaryNameNode、DataNode、ResourceManager都在本机上。到此就安装完成。下一篇将介绍如何在mac上的eclipse中配置环境。
先给出Hadoop2.6.0 在eclipse中使用的插件点我去下载

本文介绍了在MAC YOSEMITE 10.10上安装配置Hadoop 2.6的过程,包括下载Hadoop、配置SSH、设置环境变量和Hadoop相关配置文件。此外,还提到了通过开启系统偏好设置的远程登录来启用SSH,并简单提及了在Eclipse中配置Hadoop开发环境的后续步骤。

被折叠的 条评论
为什么被折叠?



