1 安装hdfs-完整分布式模式
1.1 环境
192.168.118.142:node1 NameNode
192.168.118.143:node2 Secondary NameNode,DataNode
192.168.118.144:node3 DataNode
1.2 解压hadoop1.2
1.3 配置NameNode以及HOME目录
1. 编辑conf/core-site.xml文件,详细配置可以参考core-default.html帮助文档
2. 创建家目录
mkdir -p /root/hadoop1.2/home/dfs/name
1.4 配置HDFS
编辑conf/hdfs-site.xml文件,详细配置可以参考hdfs-default帮助文档
1.5 配置DataNode
编辑slaves文件,添加DataNode
1.6 配置Secondary NameNode
编辑masters文件,添加Secondary NameNode
1.7 配置环境
1. 编辑conf/hadoop-env.sh,配置JAVA_HOME
2. 关闭各个节点的防火墙
3. $bin/hadoop namenode -format #格式化目录
1.8 配置NameNode ssh连接DataNode忽略密码
1. $ ssh-keygen-t dsa -P '' -f ~/.ssh/id_dsa #生成公钥和私钥,所有忽略的Node都执行
2. $ scp -rid_dsa.pub root@node2:~ #将公钥copy到node2节点
3. $ cat~/id_dsa.pub >> ~/.ssh/authorized_keys #node2添加公钥,其他节点重复2,3
1.9 启动hdfs
./bin/start-dfs.sh
#重新启动datanode
./bin/hadoop-daemons.sh --config conf--hosts slaves start datanode
访问http://192.168.118.142:50070/即可
2 配置MapReduce环境
2.1 配置JobTracker
编辑conf/mapred-site.xml
2.2 配置TaskTracker
默认不用配置,默认以datanode节点作为tasktracker
2.3 启动
./bin/start-all.sh
访问http://192.168.118.142:50030