第一天:安装jdk,搭建hadoop环境,用源码的例子方法返回处理结果(map,reduce)
1.使用root用户登录,密码:hadoop2.配置Linux环境
2.1:修改主机名
vim /etc/sysconfig/network
改为:HOSTNAME=master
2.2:修改IPvim /etc/sysconfig/network-scripts/ifcfg-eth0
DEVICE="eth0"
BOOTPROTO="static" ###
HWADDR="00:0C:29:BF:45:8B"
IPV6INIT="yes"
NM_CONTROLLED="yes"
ONBOOT="yes"
TYPE="Ethernet"
UUID="99339c27-0884-46c0-85d5-2612e5c1f149"
IPADDR="192.168.8.201" ###
NETMASK="255.255.255.0" ###
GATEWAY="192.168.8.1" ###
2.3: 修改主机和IP的映射关系
vim /etc/hosts
192.168.8.201 master
2.4:关闭防火墙
service iptables stop
service iptables status
chkconfig iptables --list (防火墙自启动状态)
chkconfig iptables off
2.5:重启机器
reboot
2.6配置VMnet1的网段和你虚拟的的网段在同一网段
这里需要更改虚拟机的网络设置为仅主机
host-only3.安装JDK
3.1:上传JDK到linux(用filezilla)
3.2:解压jdk (先添加执行权限)
chmod u+x jdk-6u45-linux-i586.bin
解压
./jdk-6u45-linux-i586.bin将解压好的文件剪切到/usr/local目录下
mv jdk1.6.0_45 /usr/local
建立软连接直接抵达jdk
ln -s jdk1.6.0_45 jdk3.3:配置环境变量
vim /etc/profile
在文件的最后添加
export JAVA_HOME=/usr/local/jdk
export PATH=$PATH:$JAVA_HOME/bin
3.4:刷新配置
source /etc/profile
4.安装hadoop
4.1:上传hadoop压缩包
4.2:新建文件夹,解压
mkdir /cloudtar -zxvf hadoop-1.1.2.tar.gz -C /cloud/
4.3:添加环境变量
export JAVA_HOME=/usr/local/jdk
export HADOOP_HOME=/cloud/hadoop
export PATH=$PATH:$JAVA_HOME/bin:$HADOOP_HOME/bin
4.4:刷新配置
source /etc/profile
4.5修改hadoop配置
修改hadoop的目录$HADOOP_HOME/conf目录下的配置文件
<1>编辑文件hadoop-env.sh
修改第9行 export JAVA_HOME=/usr/local/jdk
<2>编辑文件core-site.xml
<configuration>
<property>
<name>fs.default.name</name>
<value>hdfs://master:9000</value>
</property>
<property>
<name>hadoop.tmp.dir</name>
<value>/cloud/hadoop/tmp</value>
</property>
</configuration>
<3>编辑文件hdfs-site.xml
<configuration>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
</configuration>
<4>编辑文件mapred-site.xml
<configuration>
<property>
<name>mapred.job.tracker</name>
<value>master:9001</value>
</property>
</configuration>
(6)格式化文件系统,执行命令hadoop namenode -format
(7)启动,执行start-all.sh
验证:(1)执行jps,发现5个新的java进程,分别是NameNode、DataNode、SecondaryNameNode、JobTracker、TaskTracker
(2)通过浏览器查看,访问http://master:50070或者http://master:50030查看
在windows上修改文件C:\Windows\System32\drivers\etc\hosts
5.配置ssh免登陆
公钥和私钥
ssh-keygen -t rsa
cp ~/.ssh/id_rsa.pub ~/.ssh/authorized_keys
下面介绍三个重点命令
首先,是上传到HDFS ,命令为: hadoop fs -put [要上传文件的全路径] hdfs://[主机名]:9000/
然后经过mapreduce分析,这个命令一定要在jar包存在的目录下才有效:
hadoop jar [jar包名] [方法名] [输入参数(只要文件名称,不需要路径)] [输出路径(自己指定目录)]
最后是将处理结果下载到本地:
hadoop fs -get [jar命令的输出路径(服务器上显示的路径)] [自己指定写到本地的哪个目录]