大数据处理之hadoop（一）

最新推荐文章于 2022-05-29 10:38:46 发布

念残

最新推荐文章于 2022-05-29 10:38:46 发布

阅读量866

点赞数

CC 4.0 BY-SA版权

分类专栏： linux 文章标签： hadoop

本文链接：https://blog.youkuaiyun.com/johnnyjmc/article/details/18234619

linux 专栏收录该内容

2 篇文章

订阅专栏

本文详细介绍如何在Linux环境下安装配置JDK与Hadoop，并进行简单的MapReduce测试。包括使用root用户进行Linux环境配置、JDK及Hadoop的安装与环境变量配置、Hadoop核心配置文件的修改以及SSH免密码登录的设置。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

第一天：安装jdk，搭建hadoop环境，用源码的例子方法返回处理结果（map，reduce）

1.使用root用户登录，密码：hadoop
2.配置Linux环境
2.1:修改主机名

vim /etc/sysconfig/network

改为：HOSTNAME=master

2.2：修改IP

vim /etc/sysconfig/network-scripts/ifcfg-eth0

DEVICE="eth0"
BOOTPROTO="static" ###
HWADDR="00:0C:29:BF:45:8B"
IPV6INIT="yes"
NM_CONTROLLED="yes"
ONBOOT="yes"
TYPE="Ethernet"
UUID="99339c27-0884-46c0-85d5-2612e5c1f149"
IPADDR="192.168.8.201" ###
NETMASK="255.255.255.0" ###
GATEWAY="192.168.8.1" ###
2.3: 修改主机和IP的映射关系
vim /etc/hosts
192.168.8.201 master

2.4:关闭防火墙
service iptables stop
service iptables status
chkconfig iptables --list (防火墙自启动状态)
chkconfig iptables off

2.5:重启机器
reboot

2.6配置VMnet1的网段和你虚拟的的网段在同一网段

这里需要更改虚拟机的网络设置为仅主机

host-only

3.安装JDK
3.1：上传JDK到linux（用filezilla）
3.2：解压jdk （先添加执行权限）

chmod u+x jdk-6u45-linux-i586.bin

解压

./jdk-6u45-linux-i586.bin
将解压好的文件剪切到/usr/local目录下

mv jdk1.6.0_45 /usr/local

建立软连接直接抵达jdk

ln -s jdk1.6.0_45 jdk
3.3：配置环境变量
vim /etc/profile
在文件的最后添加
export JAVA_HOME=/usr/local/jdk
export PATH=$PATH:$JAVA_HOME/bin
3.4:刷新配置
source /etc/profile
4.安装hadoop
4.1：上传hadoop压缩包

4.2：新建文件夹,解压

mkdir /cloud
tar -zxvf hadoop-1.1.2.tar.gz -C /cloud/
4.3:添加环境变量
export JAVA_HOME=/usr/local/jdk
export HADOOP_HOME=/cloud/hadoop
export PATH=$PATH:$JAVA_HOME/bin:$HADOOP_HOME/bin
4.4:刷新配置
source /etc/profile

4.5修改hadoop配置
修改hadoop的目录$HADOOP_HOME/conf目录下的配置文件
<1>编辑文件hadoop-env.sh
修改第9行 export JAVA_HOME=/usr/local/jdk
<2>编辑文件core-site.xml
<configuration>
<property>
<name>fs.default.name</name>
<value>hdfs://master:9000</value>
</property>
<property>
<name>hadoop.tmp.dir</name>
<value>/cloud/hadoop/tmp</value>
</property>
</configuration>
<3>编辑文件hdfs-site.xml
<configuration>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
</configuration>
<4>编辑文件mapred-site.xml
<configuration>
<property>
<name>mapred.job.tracker</name>
<value>master:9001</value>
</property>
</configuration>
(6)格式化文件系统，执行命令hadoop namenode -format
(7)启动，执行start-all.sh
验证:(1)执行jps，发现5个新的java进程，分别是NameNode、DataNode、SecondaryNameNode、JobTracker、TaskTracker
(2)通过浏览器查看，访问http://master:50070或者http://master:50030查看
在windows上修改文件C:\Windows\System32\drivers\etc\hosts

5.配置ssh免登陆
公钥和私钥
ssh-keygen -t rsa
cp ~/.ssh/id_rsa.pub ~/.ssh/authorized_keys

下面介绍三个重点命令

首先，是上传到HDFS ，命令为： hadoop fs -put [要上传文件的全路径] hdfs://[主机名]:9000/

然后经过mapreduce分析，这个命令一定要在jar包存在的目录下才有效：

hadoop jar [jar包名] [方法名] [输入参数(只要文件名称，不需要路径)] [输出路径(自己指定目录)]

最后是将处理结果下载到本地：

hadoop fs -get [jar命令的输出路径(服务器上显示的路径)] [自己指定写到本地的哪个目录]