hadoop_环境配置

最新推荐文章于 2023-06-26 22:38:57 发布

最新推荐文章于 2023-06-26 22:38:57 发布 · 195 阅读

文章标签：

#hadoop环境 hadoop

hadoop 专栏收录该内容

2 篇文章

订阅专栏

本文详细介绍Hadoop单机集群的搭建步骤，包括时间同步、主机名与网络配置、SSH免密登录设置、JDK安装与环境变量配置、Hadoop用户创建及权限设置等，并深入解析核心配置文件如core-site.xml、hdfs-site.xml、mapred-site.xml的配置项。

1 配置时间同步：
指令：crontab -e
编辑：0 1 * * * root /usr/sbin/ntpdate cn.pool.ntp.org 【a进入编辑状态，ctrl+c退出编辑状态，:wq保存】
2 配置主机名：vi /etc/sysconfig/network
3 配置网络：
指令：setup --> network configuration-->eth0-->use dhcp空格-->ip netmask
-->ok
/sbin/service network restart #重新启动网络服务
/sbin/ifconfig #检查网络ip配置
4 配置集群hosts列表
vi /etc/hosts
192.168.1.100 master
192.168.1.101 node1
==================================
5 ssh无秘钥登陆
生成公钥和私钥
ssh-keygen -q -t rsa -N "" -f /home/hadoop/.ssh/id_rsa
cd /home/hadoop/.ssh
cp id_rsa.pub authorized_keys
chmod go-wx authorized_keys

6 安装JDK
#下载jdk
wget http://60.28.110.228/source/package/jdk-6u21-linux-i586-rpm.bin
#安装jdk
chmod +x jdk-6u21-linux-i586-rpm.bin
./jdk-6u21-linux-i586-rpm.bin

#配置环境变量
vi /etc/profile.d/java.sh

#复制粘贴一下内容到 vi 中。
export JAVA_HOME=/usr/java/jdk1.6.0_21/
export HADOOP_HOME=/opt/modules/hadoop/hadoop-1.0.3/
export PATH=$JAVA_HOME/bin:$HADOOP_HOME/bin:$PATH

#手动立即生效
source /etc/profile

7 创建hadoop用户及环境
#创建 hadoop 用户
/usr/sbin/groupadd hadoop

#分配 hadoop 到 hadoop 组中
/usr/sbin/useradd hadoop -g hadoop

#创建 hadoop 代码目录结构
mkdir -p /opt/modules/hadoop/

cp hadoop-1.0.3.tar.gz /opt/modules/hadoop/

#创建 hadoop 数据目录结构
mkdir -p /opt/data/hadoop/

#修改目录结构权限为为hadoop
chown -R hadoop:hadoop /opt/modules/hadoop/
chown -R hadoop:hadoop /opt/data/hadoop/

#解压并测试
cd /opt/modules/hadoop/
tar -xzvf hadoop-1.0.3.tar.gz
hadoop

8 hadoop单机集群配置
vi /opt/modules/hadoop/hadoop-1.0.3/conf/hadoop-env.sh
修改export HADOOP_HEAPSIZE=32

#Hadoop Common组件配置 core-site.xml
vi /opt/modules/hadoop/hadoop-1.0.3/conf/core-site.xml
<configuration>
<property>
<name>fs.default.name</name>
<value>hdfs://master:9000</value>

</property>
<property>
<name>fs.checkpoint.dir</name>
<value>/data/hadoop/hdfs/namesecondary</value>

</property>
<property>
<name>fs.checkpoint.period</name>
<value>1800</value>

</property>
<property>
<name>fs.checkpoint.size</name>
<value>33554432</value>

</property>
<property>
<name>io.compression.codecs</name>
<value>org.apache.hadoop.io.compress.DefaultCodec,org.apache.hadoop.io.compress.GzipCodec,org.apache
.hadoop.io.compress.BZip2Codec</value>

</property>

<property>
<name>fs.trash.interval</name>
<value>1440</value>
<description>Hadoop文件回收站,自动回收时间,单位分钟,这里设置是1天。</description>
</property>
</configuration>
#HDFS NameNode,DataNode组建配置 hdfs-site.xml
vi /opt/modules/hadoop/hadoop-1.0.3/conf/hdfs-site.xml

<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>

<configuration>
<property>
<name>dfs.name.dir</name>
<value>/data/hadoop/hdfs/name</value>

<description> </description>
</property>
<property>
<name>dfs.data.dir</name>
<value>/data/hadoop/hdfs/data</value>

<description> </description>
</property>
<property>
<name>dfs.http.address</name>
<value>master:50070</value>

</property>
<property>
<name>dfs.secondary.http.address</name>
<value>node1:50090</value>

</property>
<property>
<name>dfs.replication</name>
<value>3</value>

</property>
<property>
<name>dfs.datanode.du.reserved</name>
<value>1073741824</value>

</property>

<property>
<name>dfs.permissions</name>
<value>false</value>

</property>
</configuration>
#配置MapReduce - JobTracker TaskTracker 启动配置
vi /opt/modules/hadoop/hadoop-1.0.3/conf/mapred-site.xml
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>



<configuration>
<property>
<name>mapred.job.tracker</name>
<value>master:9001</value>

</property>
<property>
<name>mapred.local.dir</name>
<value>/data/hadoop/mapred/mrlocal</value>

<final>true</final>
</property>
<property>
<name>mapred.system.dir</name>
<value>/data/hadoop/mapred/mrsystem</value>
<final>true</final>

</property>
<property>
<name>mapred.tasktracker.map.tasks.maximum</name>
<value>2</value>
<final>true</final>

</property>
<property>
<name>mapred.tasktracker.reduce.tasks.maximum</name>
<value>1</value>
<final>true</final>

</property>

<property>
<name>io.sort.mb</name>
<value>32</value>
<final>true</final>

</property>

<property>
<name>mapred.child.java.opts</name>
<value>-Xmx64M</value>

</property>

<property>
<name>mapred.compress.map.output</name>
<value>true</value>

</property>
</configuration>
#Hadoop单机系统,启动执行和异常检查
#创建Hadoop mapred 和 hdfs namenode 和 datanode 目录在 root 下
mkdir -p /data/hadoop/
chown -R hadoop:hadoop /data/*

#切换到 hadoop 用户下
su hadoop

#创建mapreduce
mkdir -p /data/hadoop/mapred/mrlocal
mkdir -p /data/hadoop/mapred/mrsystem

mkdir -p /data/hadoop/hdfs/name
mkdir -p /data/hadoop/hdfs/data
mkdir -p /data/hadoop/hdfs/namesecondary

#启动切换到hadoop用户

在root下,配置权限
sudo chmod -R a+w /opt/modules/hadoop/

su hadoop

#格式化文件
/opt/modules/hadoop/hadoop-1.0.3/bin/hadoop namenode -format

#启动 Master node ：
/opt/modules/hadoop/hadoop-1.0.3/bin/hadoop-daemon.sh start namenode

#启动 JobTracker：
/opt/modules/hadoop/hadoop-1.0.3/bin/hadoop-daemon.sh start jobtracker

#启动 secondarynamenode：
/opt/modules/hadoop/hadoop-1.0.3/bin/hadoop-daemon.sh start secondarynamenode

#启动 DataNode && TaskTracker：

/opt/modules/hadoop/hadoop-1.0.3/bin/hadoop-daemon.sh start datanode
/opt/modules/hadoop/hadoop-1.0.3/bin/hadoop-daemon.sh start tasktracker

停止，命令相同，将start换为stop

#出现错误可查看日志
tail -f /opt/modules/hadoop/hadoop-1.0.3/logs/*

jps命令，jdk下用来查看一些java相关进程
注意： chmod go-w /data/hadoop/hdfs/data