以下安装目录均是在/usr/local/src目录下进行
配置Java环境
- 使用jdk-6u45-linux-x64.bin进行安装
./jdk-6u45-linux-x64.bin,安装后生成jdk1.6.0_45目录 - 增加Java环境变量
vim ~/.bashrc
export JAVA_HOME=/usr/local/src/jdk1.6.0_45
export CLASSPATH=.:$CLASSPATH:$JAVA_HOME/lib
export PATH=$PATH:$JAVA_HOME/bin
hadoop安装
安装包hadoop-1.2.1-bin.tar.gz
1. 在目录/usr/local/src下解压tar zxvf hadoop-1.2.1-bin.tar.gz,新增目录hadoop-1.2.1
2. 进入目录/usr/local/src/hadoop-1.2.1,建立临时文件夹mkdir tmp
3. 进行配置文件目录cd /usr/local/src/hadoop-1.2.1/conf
- 修改masters文件
master - 修改slaves文件
slave1
slave2
- 修改core-site.xml文件
<configuration>
<property>
<name>hadoop.tmp.dir</name>
<value>/usr/local/src/hadoop-1.2.1/tmp</value>
</property>
<property>
<name>fs.default.name</name>
<value>hdfs://192.168.31.10:9000</value>
</property>
</configuration>
- 修改mapred-site.xml文件
<configuration>
<property>
<name>mapred.job.tracker</name>
<value>http://192.168.31.10:9001</value>
</property>
</configuration>
- 修改文件hdfs-site.xml,
<configuration>
<property>
<name>dfs.replication</name>
<value>3</value>
</property>
</configuration>
- 修改文件hadoop-env.sh,在文件最后加上
export JAVA_HOME=/usr/local/src/jdk1.6.0_45
4.初次运行Hadoop需要初始化
进入目录/usr/local/src/hadoop-1.2.1/bin
运行./hadoop namenode -format初始化
5. 启动./start-all.sh
使用jps查看当前启动的Hadoop进程
主节点应该有以下进程
2201 JobTracker
2164 SecondaryNameNode
2021 NameNode
2561 Jps
从节点应该有以下进程:
1476 DataNode
1540 TaskTracker
1634 Jps
配置Zookeeper
安装包zookeeper-3.4.5.tar.gz
1. 将安装包解压到/usr/local/src目录下
tar zxvf zookeeper-3.4.5.tar.gz
2. 进入目录zookeeper-3.4.5,修改配置文件
- 添加myid文件(标记当前zookeeper节点id号),依次为0,1,2
- 进入conf子目录,创建配置文件
cp zoo_simple.cfg zoo.cfg
然后修改zoo.cfg
dataDir=/usr/local/src/zookeeper-3.4.5
#数据存放目录
添加内容
server.0=master:8880:7770
server.1=slave1:8881:7771
server.2=slave2:8882:7772
#2-->myid对应,8882->外部访问端口 7772->内部选主端口
将以上文件复制到其他节点,修改相应myid文件即可
3. 启动zookeeper
进入bin子目录,执行命令 ./zkServer.sh start
4. 检验是否启动,使用jps,相应进程有:
QuorumPeerMain
5. 查看zookeeper进程状态还可以使用
./zkServer.sh status
结果为follower说明是从节点
结果为leader说明是主节点
python操作zookeeper安装文档
http://www.cnblogs.com/linuxbug/p/4904442.html
搭建Storm
在搭建storm时,需要依赖zookeeper,zookeeper搭建可参建上一步
安装包apache-storm-0.9.3.tar.gz
1. 解压tar zxvf apache-storm-0.9.3.tar.gz
2. 修改配置文件conf/storm.yaml
#指定zookeeper集群
storm.zookeeper.servers:
- "master"
- "slave1"
- "slave2"
#指定nimbus节点
nimbus.host: "master"
#指定supervisor工作端口号,一个端口号代表一个进程
supervisor.slots.ports:
- 6700
- 6701
- 6702
- 6703
- 6704
- 将以上文件分发到其他storm节点
- 启动
主节点:
python bin/storm nimbus &
python bin/storm ui &
python bin/storm logviewer &
从节点:
python bin/storm supervisor &
python bin/storm logviewer &
- 关闭进程
主节点:
kill `ps aux | egrep '(daemon\.nimbus)|(storm\.ui\.core)|(daemon\.logviewer)' | fgrep -v egrep | awk '{print $2}'`
从节点:
kill `ps aux | fgrep storm | fgrep -v 'fgrep' | awk '{print $2}'`
- 相应进程使用jps查看
主节点上:
#端口号 进程名
99868 logviewer
99866 nimbus
99867 core
工作节点:
28031 logviewer
28030 supervisor
28142 worker#如果有storm任务的话,会有该进程
搭建pyleus
安装
pip install pyleus
配置
vi ~/.pyleus.conf
[storm]
# path to Storm executable (pyleus will automatically look in PATH)
storm_cmd_path: /opt/hadoop/client/storm/bin/storm
# optional: use -n option of pyleus CLI instead
#nimbus_ip: 192.168.1.13
# java options to pass to Storm CLI
jvm_opts: -Djava.io.tmpdir=/tmp
[build]
# PyPI server to use during the build of your topologies
pypi_index_url: http://pypi.ninjacorp.com/simple/
# always use system-site-packages for pyleus virtualenvs (default: false)
system_site_packages: true
搭建Hbase
依赖Hadoop平台,数据大部分存放在hdfs上
依赖zookeeper,Hbase脚本可以启动zookeeper
安装包hbase-0.98.0-hadoop1-bin.tar.gz
1. 解压tar zxvf hbase-0.98.0-hadoop1-bin.tar.gz
2. 修改环境变量~/.bashrc
# Hbase Conf
export HBASE_HOME=/usr/local/src/hbase-0.98.0-hadoop1
export HBASE_CLASSPATH=$HBASE_HOME/conf
export HBASE_LOG_DIR=$HBASE_HOME/logs
export PATH=$PATH:$HBASE_HOME/bin
3. 修改配置文件conf/regionservers
#节点的hostname
master
slave1
slave2
4. 修改配置文件conf/hbase-env.sh
export JAVA_HOME=/usr/local/src/jdk1.6.0_45
export CLASSPATH=.:$CLASSPATH:$JAVA_HOME/lib
5. 修改配置文件conf/hbase-site.xml
<configuration>
<property>
<name>hbase.tmp.dir</name>
<value>/var/hbase</value>
</property>
<property>
<name>hbase.rootdir</name>
<value>hdfs://master:9000/hbase</value>
</property>
<property>
<name>hbase.cluster.distributed</name>
<value>true</value>
</property>
<property>
<name>hbase.zookeeper.quorum</name>
<value>master,slave1,slave2</value>
</property>
<property>
<name>hbase.zookeeper.property.dataDir</name>
<value>/usr/local/src/hbase-0.98.24-hadoop1/zookeeper</value>
</property>
</configuration>
6. 分发文件到其他节点
7. 启动 start-hbase.sh
启动时会同时启动zookeeper进程
启动后查看进程,主节点:
111208 HMaster
111344 HRegionServer
111094 HQuorumPeer
100367 NameNode
100591 JobTracker
111456 Jps
100509 SecondaryNameNode
从节点:
31041 HQuorumPeer
31403 Jps
28371 TaskTracker
28299 DataNode
31169 HRegionServer
8. 关闭进程
stop-hbase.sh
搭建hive
- 搭建mysql
sudo yum install mysql-server
sudo yum install mysql'
启动mysql
/etc/init.d/mysqld start
设置mysql密码
mysqladmin -u root password 'root'
登录验证
mysql -uroot -proot
- 安装包apache-hive-0.13.0-bin.tar.gz
解压
tar zxvf apache-hive-0.13.0-bin.tar.gz
进入解压后的目录
cd apache-hive-0.13.0-bin
开始修改文件
conf/hive-site.xml
<configuration>
<property>
<name>javax.jdo.option.ConnectionURL</name>
<value>jdbc:mysql://localhost:3306/hive?createDatabaseIfNotExist=true</value>
</property>
<property>
<name>javax.jdo.option.ConnectionDriverName</name>
<value>com.mysql.jdbc.Driver</value>
</property>
<property>
<name>javax.jdo.option.ConnectionUserName</name>
<value>root</value>
</property>
<property>
<name>javax.jdo.option.ConnectionPassword</name>
<value>root</value>
</property>
</configuration>
修改~/.bashrc
# Hive Conf
export HIVE_HOME=/usr/local/src/apache-hive-0.13.0-bin
export PATH=$PATH:$HIVE_HOME/bin
- 添加连接mysql的jdbc驱动,在压缩包mysql-connector-java-5.1.41.tar.gz中,解压后copy jar包
cp mysql-connector-java-5.1.41/mysql-connector-java-5.1.41-bin.jar apache-hive-0.13.0-bin/lib/
- hive命令启动即可
未完待续。。。
本文详细介绍了一个包含Java、Hadoop、Zookeeper、Storm、Pyleus、Hbase、Hive等组件的大数据环境搭建过程,包括各组件的安装、配置及启动步骤。
1153

被折叠的 条评论
为什么被折叠?



