centos hadoop环境安装

最新推荐文章于 2025-02-15 20:02:07 发布

原创最新推荐文章于 2025-02-15 20:02:07 发布 · 616 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#centos #hadoop

大数据专栏收录该内容

3 篇文章

订阅专栏

本文详细介绍了一个包含Java、Hadoop、Zookeeper、Storm、Pyleus、Hbase、Hive等组件的大数据环境搭建过程，包括各组件的安装、配置及启动步骤。

以下安装目录均是在/usr/local/src目录下进行

配置Java环境

使用jdk-6u45-linux-x64.bin进行安装
./jdk-6u45-linux-x64.bin，安装后生成jdk1.6.0_45目录
增加Java环境变量
vim ~/.bashrc

export JAVA_HOME=/usr/local/src/jdk1.6.0_45
export CLASSPATH=.:$CLASSPATH:$JAVA_HOME/lib
export PATH=$PATH:$JAVA_HOME/bin

hadoop安装

安装包hadoop-1.2.1-bin.tar.gz
1. 在目录/usr/local/src下解压tar zxvf hadoop-1.2.1-bin.tar.gz，新增目录hadoop-1.2.1
2. 进入目录/usr/local/src/hadoop-1.2.1，建立临时文件夹mkdir tmp
3. 进行配置文件目录cd /usr/local/src/hadoop-1.2.1/conf

修改masters文件
master
修改slaves文件
slave1 slave2
修改core-site.xml文件

    <configuration>
        <property>
                <name>hadoop.tmp.dir</name>
                <value>/usr/local/src/hadoop-1.2.1/tmp</value>
        </property>
        <property>
                <name>fs.default.name</name>
                <value>hdfs://192.168.31.10:9000</value>
        </property>
    </configuration>

修改mapred-site.xml文件

    <configuration>
        <property>
                <name>mapred.job.tracker</name>
                <value>http://192.168.31.10:9001</value>
        </property>
    </configuration>

修改文件hdfs-site.xml,

<configuration>
        <property>
                <name>dfs.replication</name>
                <value>3</value>
        </property>

</configuration>

修改文件hadoop-env.sh，在文件最后加上

    export JAVA_HOME=/usr/local/src/jdk1.6.0_45

4.初次运行Hadoop需要初始化
进入目录/usr/local/src/hadoop-1.2.1/bin
运行./hadoop namenode -format初始化
5. 启动./start-all.sh
使用jps查看当前启动的Hadoop进程
主节点应该有以下进程
2201 JobTracker 2164 SecondaryNameNode 2021 NameNode 2561 Jps
从节点应该有以下进程：
1476 DataNode 1540 TaskTracker 1634 Jps

配置Zookeeper

安装包zookeeper-3.4.5.tar.gz
1. 将安装包解压到/usr/local/src目录下
tar zxvf zookeeper-3.4.5.tar.gz
2. 进入目录zookeeper-3.4.5，修改配置文件
- 添加myid文件(标记当前zookeeper节点id号)，依次为0,1,2
- 进入conf子目录，创建配置文件
cp zoo_simple.cfg zoo.cfg
然后修改zoo.cfg
dataDir=/usr/local/src/zookeeper-3.4.5 #数据存放目录添加内容 server.0=master:8880:7770 server.1=slave1:8881:7771 server.2=slave2:8882:7772 #2-->myid对应，8882->外部访问端口 7772->内部选主端口
将以上文件复制到其他节点，修改相应myid文件即可
3. 启动zookeeper
进入bin子目录，执行命令 ./zkServer.sh start
4. 检验是否启动，使用jps，相应进程有：
QuorumPeerMain
5. 查看zookeeper进程状态还可以使用
./zkServer.sh status
结果为follower说明是从节点
结果为leader说明是主节点

python操作zookeeper安装文档

http://www.cnblogs.com/linuxbug/p/4904442.html

搭建Storm

在搭建storm时，需要依赖zookeeper，zookeeper搭建可参建上一步
安装包apache-storm-0.9.3.tar.gz
1. 解压tar zxvf apache-storm-0.9.3.tar.gz
2. 修改配置文件conf/storm.yaml

#指定zookeeper集群
storm.zookeeper.servers:
    - "master"
    - "slave1"
    - "slave2"

#指定nimbus节点
nimbus.host: "master"
#指定supervisor工作端口号，一个端口号代表一个进程
supervisor.slots.ports:
    - 6700
    - 6701
    - 6702
    - 6703
    - 6704

将以上文件分发到其他storm节点
启动
主节点：

python bin/storm nimbus &
python bin/storm ui &
python bin/storm logviewer &

从节点：

python bin/storm supervisor &
python bin/storm logviewer &

关闭进程
主节点：

kill `ps aux | egrep '(daemon\.nimbus)|(storm\.ui\.core)|(daemon\.logviewer)' | fgrep -v egrep | awk '{print $2}'`

从节点：

kill `ps aux | fgrep storm | fgrep -v 'fgrep' | awk '{print $2}'`

相应进程使用jps查看
主节点上：

#端口号 进程名
99868 logviewer
99866 nimbus
99867 core

工作节点：

28031 logviewer
28030 supervisor
28142 worker#如果有storm任务的话，会有该进程

搭建pyleus

安装
pip install pyleus
配置
vi ~/.pyleus.conf

[storm]
# path to Storm executable (pyleus will automatically look in PATH)
storm_cmd_path: /opt/hadoop/client/storm/bin/storm

# optional: use -n option of pyleus CLI instead
#nimbus_ip: 192.168.1.13

# java options to pass to Storm CLI
jvm_opts: -Djava.io.tmpdir=/tmp

[build]
# PyPI server to use during the build of your topologies
pypi_index_url: http://pypi.ninjacorp.com/simple/

# always use system-site-packages for pyleus virtualenvs (default: false)
system_site_packages: true

搭建Hbase

依赖Hadoop平台，数据大部分存放在hdfs上
依赖zookeeper，Hbase脚本可以启动zookeeper
安装包hbase-0.98.0-hadoop1-bin.tar.gz
1. 解压tar zxvf hbase-0.98.0-hadoop1-bin.tar.gz
2. 修改环境变量~/.bashrc
# Hbase Conf export HBASE_HOME=/usr/local/src/hbase-0.98.0-hadoop1 export HBASE_CLASSPATH=$HBASE_HOME/conf export HBASE_LOG_DIR=$HBASE_HOME/logs export PATH=$PATH:$HBASE_HOME/bin
3. 修改配置文件conf/regionservers
#节点的hostname master slave1 slave2
4. 修改配置文件conf/hbase-env.sh
export JAVA_HOME=/usr/local/src/jdk1.6.0_45 export CLASSPATH=.:$CLASSPATH:$JAVA_HOME/lib
5. 修改配置文件conf/hbase-site.xml
<configuration> <property> <name>hbase.tmp.dir</name> <value>/var/hbase</value> </property> <property> <name>hbase.rootdir</name> <value>hdfs://master:9000/hbase</value> </property> <property> <name>hbase.cluster.distributed</name> <value>true</value> </property> <property> <name>hbase.zookeeper.quorum</name> <value>master,slave1,slave2</value> </property> <property> <name>hbase.zookeeper.property.dataDir</name> <value>/usr/local/src/hbase-0.98.24-hadoop1/zookeeper</value> </property> </configuration>
6. 分发文件到其他节点
7. 启动 start-hbase.sh
启动时会同时启动zookeeper进程
启动后查看进程，主节点：
111208 HMaster 111344 HRegionServer 111094 HQuorumPeer 100367 NameNode 100591 JobTracker 111456 Jps 100509 SecondaryNameNode
从节点：
31041 HQuorumPeer 31403 Jps 28371 TaskTracker 28299 DataNode 31169 HRegionServer
8. 关闭进程
stop-hbase.sh

搭建hive

搭建mysql
sudo yum install mysql-server sudo yum install mysql'
启动mysql
/etc/init.d/mysqld start
设置mysql密码
mysqladmin -u root password 'root'
登录验证
mysql -uroot -proot
安装包apache-hive-0.13.0-bin.tar.gz
解压
tar zxvf apache-hive-0.13.0-bin.tar.gz
进入解压后的目录
cd apache-hive-0.13.0-bin
开始修改文件
conf/hive-site.xml
<configuration> <property> <name>javax.jdo.option.ConnectionURL</name> <value>jdbc:mysql://localhost:3306/hive?createDatabaseIfNotExist=true</value> </property> <property> <name>javax.jdo.option.ConnectionDriverName</name> <value>com.mysql.jdbc.Driver</value> </property> <property> <name>javax.jdo.option.ConnectionUserName</name> <value>root</value> </property> <property> <name>javax.jdo.option.ConnectionPassword</name> <value>root</value> </property> </configuration>
修改~/.bashrc
# Hive Conf export HIVE_HOME=/usr/local/src/apache-hive-0.13.0-bin export PATH=$PATH:$HIVE_HOME/bin
添加连接mysql的jdbc驱动，在压缩包mysql-connector-java-5.1.41.tar.gz中，解压后copy jar包
cp mysql-connector-java-5.1.41/mysql-connector-java-5.1.41-bin.jar apache-hive-0.13.0-bin/lib/
hive命令启动即可