虚拟环境下搭建hadoop之一——搭建前的准备

本文详述了初学者在虚拟环境中搭建Hadoop集群的前期准备,包括使用VMware Workstation 12 Pro创建CentOS6.7虚拟机,配置网络、主机名,设定IP地址,以及配置hosts文件和免密登录。通过这些步骤,为后续Hadoop安装和集群配置打下基础。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

这是本人初学搭建hadoop的配置步骤,比较适合新手参考,高手可帮忙矫正此文,不甚感激。

实验环境说明:使用的虚拟机软件是VMware Workstation 12 Pro
虚拟机操作系统版本是CentOS6.7
JDK版本是jdk-7u79-linux-x64.rpm
hadoop版本是hadoop-1.0.0.tar.gz
(如果需要以上文件,可留言与本人联系)

1 环境说明
集群包括3个节点,这个三个节点是用户名为hadoop-un的安装有CentOS6.7系统的虚拟机,这里虚拟机的安装过程略去。三个节点中,1个master节点,2个slave节点,节点之间通过局域网连接,可以相互ping通。节点IP地址设置如下:
这里写图片描述
master主机主要配置Namenode和JobTracker的角色,负责总管分布式数据和分解任务的执行;2个slave主机配置Datanode和JobTracker的角色,负责分布式数据存储以及任务的执行。
2 网络配置
2.1 修改主机名
这里以master主机为例说明网络配置过程,另外两个主机的配置过程与master的配置过程相同。为了方便管理使用,先修改主机的hostname。
先通过如下命令查看当前主机名:
这里写图片描述
如果当前主机名与规划的主机名不一致,可以修改/etc/sysconfig/network文件中”HOSTNAME”来使主机名与规划的相一致。修改命令如下:

### 安装和配置Hadoop #### 准备工作 为了在VM虚拟机环境中成功安装和配置Hadoop,需确保操作系统已准备好。对于本案例中的`hadoop2`主机为例,建议使用CentOS 7作为基础操作系统[^1]。 #### 下载与解压Hadoop 下载适合版本的Hadoop压缩包至本地计算机,并将其传输到目标虚拟机中。之后通过SSH登录到该虚拟机并进入文件所在路径执行如下命令来解压: ```bash tar -zxvf hadoop-x.x.x.tar.gz -C /usr/local/ ``` 这里假设将Hadoop放置于`/usr/local/`目录下;其中`x.x.x`代表具体版本号,请替换为实际数值。 #### 设置环境变量 编辑全局环境变量文件使系统能够识别Hadoop命令。这可以通过修改`/etc/profile`实现: ```bash vim /etc/profile ``` 向文件末尾追加以下内容以便设置必要的环境变量: ```bash export HADOOP_HOME=/usr/local/hadoop-x.x.x export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin ``` 保存更改后运行下面这条指令让新的环境变量生效: ```bash source /etc/profile ``` #### 修改Hadoop配置文件 接下来要调整几个重要的XML配置文件以适应集群需求。这些文件位于`${HADOOP_HOME}/etc/hadoop/`目录内。主要涉及的是`core-site.xml`, `hdfs-site.xml`, 和 `yarn-site.xml`. ##### core-site.xml 定义NameNode地址以及默认FS URI等基本信息: ```xml <configuration> <property> <name>fs.defaultFS</name> <value>hdfs://namenode:9000</value> </property> </configuration> ``` ##### hdfs-site.xml 指定DataNodes存储数据的位置以及其他参数: ```xml <configuration> <property> <name>dfs.replication</name> <value>3</value> </property> <!-- 更多属性... --> </configuration> ``` ##### yarn-site.xml 用于YARN框架的相关设定: ```xml <configuration> <property> <name>yarn.resourcemanager.hostname</name> <value>resourcemanager-hostname</value> </property> <!-- 更多属性... --> </configuration> ``` 完成上述操作后重启所有服务使得新配置被加载应用。 --- ### 安装和配置Hive #### 安装MySQL数据库 由于Derby数据库无法满足多客户端并发访问的要求,因此推荐采用更强大的关系型数据库管理系统——MySQL作为元数据仓库。按照官方文档或其他可靠资源指导完成MySQL服务器端软件包的安装过程[^2]。 #### 解压Hive分发版 获取最新稳定发行版并将之上传到Master节点上的某个位置(比如`/usr/hive-4.0.1/`)。接着利用Linux tar工具解开归档文件: ```bash tar -xzvf apache-hive-x.y.z-bin.tar.gz -C /usr/ ``` 同样地,记得更新`.bashrc`或相应shell初始化脚本来包含Hive相关的环境变量声明: ```bash export HIVE_HOME=/usr/apache-hive-x.y.z-bin export PATH=$PATH:$HIVE_HOME/bin ``` 再次调用`souce ~/.bashrc`刷新当会话内的可用命令列表。 #### 初始化Metastore Schema 首次启动之应当创建好所需的表结构。切换到Hive根目录并通过JDBC连接器指向外部RDBMS实例执行DDL语句集: ```sql schematool -dbType mysql -initSchema ``` 此命令将会读取内置SQL模板并在远程MySQL Server里构建起完整的模式架构。 #### 编辑hive-site.xml 最后一步就是定制化核心选项集合了。打开`${HIVE_HOME}/conf/hive-site.xml`进行必要项填写,特别是关于JDBC URL、用户名密码等方面的信息: ```xml <configuration> <property> <name>javax.jdo.option.ConnectionURL</name> <value>jdbc:mysql://localhost:3306/metastore?createDatabaseIfNotExist=true&useSSL=false</value> </property> <property> <name>javax.jdo.option.ConnectionDriverName</name> <value>com.mysql.cj.jdbc.Driver</value> </property> <property> <name>javax.jdo.option.ConnectionUserName</name> <value>your_username</value> </property> <property> <name>javax.jdo.option.ConnectionPassword</name> <value>your_password</value> </property> </configuration> ``` 至此整个流程结束,现在应该可以在分布式计算平台上顺利运行MapReduce作业并且借助HiveQL查询分析大规模半结构化乃至非结构化的海量资料啦!
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值