一、背景
需要使用hive远程debug,尝试使用无hadoop部署hive方式一直失败,无果,还是使用有hadoop方式。最终查看linux内存占用6GB
,还在后台运行docker的mysql(bitnami/mysql:8.0
),基本满意。
版本选择:
(1)hive2 hadoop2 和hive3和hadoop3需要搭配使用,不能像chd的hive2和hadoop3搭配使用,容易出现问题。
本文选择版本,都是官网推荐的版本:
hadoop-3.3.6.tar.gz
apache-hive-3.1.3-bin.tar.gz
二、创建用户和组
# hadoop缩写hdp
useradd hdp
groupadd hadoop
后边启动hadoop不能用root用户。
三、配置集群(单节点)互信
su hdp && cd .ssh
ssh-keygen
# 一路回车
cat id_rsa.pub >> authorized_keys
vi /etc/hosts
# localhost 行后追加 hdp
# 配置后测试下
ssh hdp
ssh localhost
四、hadoop搭建
hadoop官网
下载安装包
本文hadoop安装路径:/opt/hadoop-3.3.6
# 解压
tar -xvf hadoop-3.3.6.tar.gz
# 改名字
mv ... hadoop-3.3.6
# 加个软连接
cd hadoop-3.3.6
ln -s etc/hadoop conf
修改hadoop-env.sh
export HADOOP_LOG_DIR=${HADOOP_HOME}/logs
export HADOOP_CLIENT_OPTS="-Xmx2048m $HADOOP_CLIENT_OPTS"
修改core-site.xml
,添加:
<configuration>
<property>
<name>fs.defaultFS</name>
<value>hdfs://hdp:9000</value>
<description>hdfs内部通讯访问地址</description>
</property>
<property>
<name>hadoop.tmp.dir</name>
<!--临时文件目录需要自己建立-->
<value>/var/hadoop/tmp</value>
</property>
<property>
<name>hadoop.proxyuser.hadoop.hosts</name>
<value>*</value>
</property>
<property>
<name>hadoop.proxyuser.hadoop.groups</name>
<value>*</value>
</property>
</configuration>
修改hdfs-site.xml,添加:
<configuration>
<property>
<name>dfs.namenode.name.dir</name>
<value>/var/hadoop/data/namenode</value>
<description> namenode 存放name table(fsimage)本地目录需要修改,如果没有需要自己创建文件目录)</description>
</property>
<property</