大数据处理之hadoop(一)

本文详细介绍如何在Linux环境下安装配置JDK与Hadoop,并进行简单的MapReduce测试。包括使用root用户进行Linux环境配置、JDK及Hadoop的安装与环境变量配置、Hadoop核心配置文件的修改以及SSH免密码登录的设置。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

第一天:安装jdk,搭建hadoop环境,用源码的例子方法返回处理结果(map,reduce)

1.使用root用户登录,密码:hadoop
2.配置Linux环境
2.1:修改主机名

vim /etc/sysconfig/network

改为:HOSTNAME=master

2.2:修改IP

vim /etc/sysconfig/network-scripts/ifcfg-eth0


DEVICE="eth0"
BOOTPROTO="static"  ###
HWADDR="00:0C:29:BF:45:8B"
IPV6INIT="yes"
NM_CONTROLLED="yes"
ONBOOT="yes"
TYPE="Ethernet"
UUID="99339c27-0884-46c0-85d5-2612e5c1f149"
IPADDR="192.168.8.201"  ###
NETMASK="255.255.255.0" ###
GATEWAY="192.168.8.1"   ###
2.3: 修改主机和IP的映射关系
vim /etc/hosts
192.168.8.201 master

2.4:关闭防火墙
service iptables stop
service iptables status
chkconfig iptables --list  (防火墙自启动状态)
chkconfig iptables off

2.5:重启机器
reboot

2.6配置VMnet1的网段和你虚拟的的网段在同一网段

这里需要更改虚拟机的网络设置为仅主机

host-only


3.安装JDK
3.1:上传JDK到linux(用filezilla)
3.2:解压jdk (先添加执行权限)

chmod u+x jdk-6u45-linux-i586.bin

解压

./jdk-6u45-linux-i586.bin
将解压好的文件剪切到/usr/local目录下

mv jdk1.6.0_45 /usr/local

建立软连接直接抵达jdk

ln -s jdk1.6.0_45 jdk
3.3:配置环境变量
vim /etc/profile
在文件的最后添加
export JAVA_HOME=/usr/local/jdk
export PATH=$PATH:$JAVA_HOME/bin
3.4:刷新配置
source /etc/profile
4.安装hadoop
4.1:上传hadoop压缩包

4.2:新建文件夹,解压

mkdir /cloud
tar -zxvf hadoop-1.1.2.tar.gz -C /cloud/
4.3:添加环境变量
export JAVA_HOME=/usr/local/jdk
export HADOOP_HOME=/cloud/hadoop
export PATH=$PATH:$JAVA_HOME/bin:$HADOOP_HOME/bin
4.4:刷新配置
source /etc/profile

4.5修改hadoop配置
修改hadoop的目录$HADOOP_HOME/conf目录下的配置文件

    <1>编辑文件hadoop-env.sh
   修改第9行  export JAVA_HOME=/usr/local/jdk
<2>编辑文件core-site.xml
<configuration>
<property>
<name>fs.default.name</name>
<value>hdfs://master:9000</value>
</property>
<property>
<name>hadoop.tmp.dir</name>
<value>/cloud/hadoop/tmp</value>
</property>  
</configuration>
<3>编辑文件hdfs-site.xml
<configuration>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
</configuration>  
<4>编辑文件mapred-site.xml
<configuration>
<property>
<name>mapred.job.tracker</name>
<value>master:9001</value>
</property>
</configuration>  
 (6)格式化文件系统,执行命令hadoop namenode -format
 (7)启动,执行start-all.sh
验证:(1)执行jps,发现5个新的java进程,分别是NameNode、DataNode、SecondaryNameNode、JobTracker、TaskTracker
    (2)通过浏览器查看,访问http://master:50070或者http://master:50030查看
   在windows上修改文件C:\Windows\System32\drivers\etc\hosts

5.配置ssh免登陆
公钥和私钥

ssh-keygen -t rsa
cp ~/.ssh/id_rsa.pub ~/.ssh/authorized_keys



下面介绍三个重点命令

首先,是上传到HDFS ,命令为:  hadoop fs -put [要上传文件的全路径] hdfs://[主机名]:9000/

然后经过mapreduce分析,这个命令一定要在jar包存在的目录下才有效:

hadoop jar [jar包名] [方法名] [输入参数(只要文件名称,不需要路径)] [输出路径(自己指定目录)]

最后是将处理结果下载到本地:

hadoop fs -get [jar命令的输出路径(服务器上显示的路径)] [自己指定写到本地的哪个目录]














评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值