1、 在linux下安装单机版本的hadoop2.6.4:
在解压后的文件 /etc/hadoop 下修改
* vi hadoop-env.sh
增加
export JAVA_HOME
如果已经配置了系统的环境变量,就不需要此步骤
- vi core-site.xml
hadoop.tmp.dir
/hadoop/tmp
fs.default.name
hdfs://10.100.82.241:9000
- vi mapred-site.xml
mapred.job.tracker
10.100.82.241:9001
- vi yarn-site.xml
mapreduce.framework.name
yarn
yarn.nodemanager.aux-services
mapreduce_shuffle
- vi hdfs-site.xml
dfs.replication
1
dfs.namenode.name.dir
/hadoop/hadoop-2.6.0/dfs/name
dfs.datannode.data.dir
/hadoop/hadoop-2.6.0/dfs/data
- 启动
格式化Hadoop的文件系统HDFS
bin/hadoop namenode -format
格式化完毕后再启动hadoop
sbin/start-all.sh
验证hadoop是否安装成功
http://localhost:50030 (MapReduce的web页面)
http://localhost:50070 (HDFS的WEB页面)
如果都能查看,说明hadoop已经安装成功
(注意防火墙开放着2个端口)
* 查看 jps
[root@localhost hadoop]# jps
5081 NodeManager
4885 SecondaryNameNode
5208 Jps
4255 ResourceManager
4753 DataNode
[root@localhost hadoop]#
- 查看report的信息
[root@localhost bin]# ./hadoop dfsadmin -report
DEPRECATED: Use of this script to execute hdfs command is deprecated.
Instead use the hdfs command for it.
Configured Capacity: 18746441728 (17.46 GB)
Present Capacity: 15697825792 (14.62 GB)
DFS Remaining: 15697821696 (14.62 GB)
DFS Used: 4096 (4 KB)
DFS Used%: 0.00%
Under replicated blocks: 0
Blocks with corrupt replicas: 0
Missing blocks: 0
Live datanodes (1):
Name: 127.0.0.1:50010 (localhost)
Hostname: localhost
Decommission Status : Normal
Configured Capacity: 18746441728 (17.46 GB)
DFS Used: 4096 (4 KB)
Non DFS Used: 3048615936 (2.84 GB)
DFS Remaining: 15697821696 (14.62 GB)
DFS Used%: 0.00%
DFS Remaining%: 83.74%
Configured Cache Capacity: 0 (0 B)
Cache Used: 0 (0 B)
Cache Remaining: 0 (0 B)
Cache Used%: 100.00%
Cache Remaining%: 0.00%
Xceivers: 1
Last contact: Thu Mar 03 17:14:01 CST 2016
- 记得防火墙开发配置的2个端口,如果防火墙采用的是IPTABLES的话如下:
vi /etc/sysconfig/iptables #编辑防火墙配置文件
加上要开放的端口:
-A INPUT -m state –state NEW -m tcp -p tcp –dport 22 -j ACCEPT
-A INPUT -m state –state NEW -m tcp -p tcp –dport 80 -j ACCEPT
-A INPUT -m state –state NEW -m tcp -p tcp –dport 8080 -j ACCEPT
systemctl restart iptables.service #最后重启防火墙使配置生效
systemctl enable iptables.service #设置防火墙开机启动
service iptables stop #停止
chkconfig iptables off #禁用
2、JAVA代码里面远程调用hadoop,进行MapReduce操作
在Hadoop上运行MapReduce任务的标准做法是把代码打包到jar里面,上传到服务器,然后用命令行启动。如果你是从一个Java应用中想要启动一个MapReduce,那么这个方法真是又土又麻烦。
其实YARN是可以通过Java程序向Hadoop集群提交MapReduce任务的。与普通的任务不同的是,远程提交的Job由于读不到服务器上的mapred-site.xml和yarn-site.xml,所以在Job的Configuration里面需要添加一些设置,然后再提交就可以了。