Linux系统安装hadoop,先贴个hadoop资源网址:
https://archive.apache.org/dist/hadoop/common/hadoop-3.1.3/
找了好几个,链接都不靠谱,最终还是官网的靠谱。
另外,hadoop运行依赖java环境,如果linux没有安装java运行环境的,可参考上一篇文章进行安装java运行环境:linux安装java环境
下载安装包
这里我选择的是3.1.3版本
wget https://archive.apache.org/dist/hadoop/common/hadoop-3.1.3/hadoop-3.1.3.tar.gz
安装包将下载到当前目录。
建议创建一个目录用来存放各种下载的资源。
解压安装包并移动至安装目录
我自己的下载目录和安装目录是分离的,我的习惯是下载的东西都扔到/download目录下,安装的软件都扔到/usr/local目录下,这个可以根据个人习惯,只要能找到自己的软件安装到哪里了就行。
# 切换至下载目录,进行解压
cd /download
tar -zxvf hadoop-3.1.3.tar.gz
# 将解压包移动至安装目录
mv hadoop-3.1.3 /usr/local/hadoop-3.1.3
配置环境变量
vi /etc/profile
# 将下面这句添加至末尾
HADOOP_HOME=/usr/local/hadoop-3.1.3
# 在PATH后追加内容,如下(记住是追加,不要删除原数据,否则会造成其他环境变量丢失):
:$HADOOP_HOME/bin
最终结果如下图:
执行命令source profile,使更改生效
cd /etc
source profile
验证是否配置成功
[root@localhost etc]# hadoop version
Hadoop 3.1.3
Source code repository https://gitbox.apache.org/repos/asf/hadoop.git -r ba631c436b806728f8ec2f54ab1e289526c90579
Compiled by ztang on 2019-09-12T02:47Z
Compiled with protoc 2.5.0
From source with checksum ec785077c385118ac91aadde5ec9799
This command was run using /usr/local/hadoop-3.1.3/share/hadoop/common/hadoop-common-3.1.3.jar
至此,hadoop简易版已经安装完成。
安装hive
下载hive安装包
cd /download #此处操作是我打开我的下载目录,将安装包下载到这个目录中,个人习惯
wget https://archive.apache.org/dist/hive/hive-3.1.3/apache-hive-3.1.3-bin.tar.gz
然后解压安装包
tar -zxvf apache-hive-3.1.3-bin.tar.gz
将安装包移动到安装目录(个人习惯)
mv $pwd/apache-hive-3.1.3-bin /usr/local/apache-hive-3.1.3-bin
至此,hive已经简单的安装完成了,默认使用的嵌入模式;
配置伪分布式
1.安装mysql
可以参考:MySQL解压版安装方法(Linux)
此处不做过多描述。
碰到hive安装成功后无法创建数据库的情况,可参考这个文章:https://blog.youkuaiyun.com/meiLin_Ya/article/details/86145943
2.修改hive-env.sh配置文件,配置Hadoop环境变量
进入Hive安装包下的conf文件夹,将hive-env.sh.template文件进行拷贝并重命名为hive-env.sh,具体指令如下:
# 切换到hive安装目录中的conf文件夹下
cd /usr/local/apache-hive-3.1.3-bin/conf
# 拷贝配置文件
cp hive-env.sh.template hive-env.sh
使用命令:vi hive-env.sh修改配置文件,在48行修改Hadoop环境变量(上面刚刚配置过的)。如下图所示:
3.添加hive-site.xml配置文件
如果没有,就新建,仍然是再conf目录下。
创建完之后,编辑如下内容(注意对应的value值要修改成自己的):
<configuration>
<property>
<name>javax.jdo.option.ConnectionURL</name>
<value>jdbc:mysql://localhost:3306/hive?createDatabaseIfNotExist=true</value>
<description>MySQL连接协议 </description>
</property>
<property>
<name>javax.jdo.option.ConnectionDriverName</name>
<value>com.mysql.jdbc.Driver</value>
<description>JDBC连接驱动</description>
</property>
<property>
<name>javax.jdo.option.ConnectionUserName</name>
<value>root</value>
<description>用户名</description>
</property>
<property>
<name>javax.jdo.option.ConnectionPassword</name>
<value>root</value>
<description>密码</description>
</property>
<!--显示查询出的数据的字段名称-->
<property>
<name>hive.cli.print.header</name>
<value>true</value>
<description>Whether to print the names of the columns in query output.</description>
</property>
<!--在hive中显示当前所在数据库名称-->
<property>
<name>hive.cli.print.current.db</name>
<value>true</value>
<description>Whether to include the current database in the Hive prompt.</description>
</property>
<property>
<name>hive.metastore.schema.verification</name>
<value>false</value>
</property>
<property>
<name>datanucleus.schema.autoCreateAll</name>
<value>true</value>
</property>
</configuration>
4.添加数据库驱动包到hive的lib目录中
因为我安装的是5.x版本的数据库,因此我使用5.x版本的驱动jar包就可以,网上下载一个相应版本的驱动jar包,上传到hive的lib目录中即可;如下图:
到这里,hive基本上就安装完成了,可以在安装目录,使用bin/hive命令进行启动和测试。
5.修改hive-log4j.properties配置(可忽略)
配置文件同样在安装目录的conf文件夹下面,不同版本的文件可能不一样,有的是hive-log4j.properties,有的使用的hive-log4j2.properties,配置都大同小异,根据需要进行配置即可,不做详述。