—、系统环境初始化

1、机器资源介绍

准备3台机器  
lyc-80-101
lyc-80-102
lyc-80-103
[root@lyc-80-101 ~]# hostnamectl
   Static hostname: lyc-80-101
    Virtualization: vmware
  Operating System: CentOS Linux 7 (Core)
       CPE OS Name: cpe:/o:centos:centos:7
            Kernel: Linux 3.10.0-862.el7.x86_64
      Architecture: x86-64
  • 1.
  • 2.
  • 3.
  • 4.
  • 5.
  • 6.
  • 7.
  • 8.
  • 9.
  • 10.
  • 11.

2、设置IP为static模式

[root@lyc-80-101 ~]# cat /etc/sysconfig/network-scripts/ifcfg-ens33 
TYPE="Ethernet"
PROXY_METHOD="none"
BROWSER_ONLY="no"
BOOTPROTO="none"
DEFROUTE="yes"
IPV4_FAILURE_FATAL="no"
NAME="ens33"
DEVICE="ens33"
ONBOOT="yes"
IPADDR="192.168.80.101"
PREFIX="24"
GATEWAY="192.168.80.2"
DNS1="192.168.80.2"
  • 1.
  • 2.
  • 3.
  • 4.
  • 5.
  • 6.
  • 7.
  • 8.
  • 9.
  • 10.
  • 11.
  • 12.
  • 13.
  • 14.

3、设置hosts映射文件

vi  /etc/hosts
192.168.80.101 lyc-80-101
192.168.80.102 lyc-80-102
192.168.80.103 lyc-80-103

电脑端修改hosts文件,位置为C:\Windows\System32\drivers\etc
  • 1.
  • 2.
  • 3.
  • 4.
  • 5.
  • 6.

4、关闭 firewalld,iptables 与 selinux

所有节点都要配置:
yum install -y firewall* iptable* 
(1) 关闭firewalld
systemctl stop firewalld.service
systemctl disable firewalld.service
firewall-cmd --state

(2) 关闭iptables 
iptables -F
systemctl stop iptables.service 
service iptables save
systemctl disable iptables.service 

(3) 禁用 selinux 
sed -i '/SELINUX/s/enforcing/disabled/' /etc/selinux/config  
setenforce 0
getenforce 0
sestatus

(4)防火墙规则变更
iptables -P INPUT ACCEPT
iptables -P FORWARD ACCEPT
iptables -F
iptables -L -n

重启机器
reboot
  • 1.
  • 2.
  • 3.
  • 4.
  • 5.
  • 6.
  • 7.
  • 8.
  • 9.
  • 10.
  • 11.
  • 12.
  • 13.
  • 14.
  • 15.
  • 16.
  • 17.
  • 18.
  • 19.
  • 20.
  • 21.
  • 22.
  • 23.
  • 24.
  • 25.
  • 26.
  • 27.

5、设置免密登录

ssh-keygen -t rsa   敲3下回车,生成秘钥
ssh-copy-id lyc-80-101
ssh-copy-id lyc-80-102
ssh-copy-id lyc-80-103
-----------以上命令,每台机器都需要执行,也可以使用脚本批量进行免密
----------------------------------------------------------------
也可以使用脚本进行免密
pwd
/root
chmod +x fgssh
执行免密脚本
./fgssh -user root -hosts "lyc-80-101 lyc-80-102 lyc-80-103" -advanced -exverify -confirm

输入一次yes
看到enter  就是回车
看到password就是输密码
  • 1.
  • 2.
  • 3.
  • 4.
  • 5.
  • 6.
  • 7.
  • 8.
  • 9.
  • 10.
  • 11.
  • 12.
  • 13.
  • 14.
  • 15.
  • 16.

第二十六节 搭建大数据平台CDH6.3.2_cloudera

6、更换源文件

更换centos7的源为华为源,当然也可以选择阿里源
cd /etc/yum.repos.d
mkdir yumbak
把里面的repo进行备份 
mv CentOS-* yumbak/
移动源文件到/etc/yum.repos.d下
mv /root/CentOS7-Base.repo .    //需要提前准备备好源文件
----------
文件内容
cat /etc/yum.repos.d/CentOS7-Base.repo
------
[base]
name=CentOS-$releasever - Base - repo.huaweicloud.com
baseurl=https://repo.huaweicloud.com/centos/$releasever/os/$basearch/
#mirrorlist=https://mirrorlist.centos.org/?release=$releasever&arch=$basearch&repo=os
gpgcheck=1
gpgkey=https://repo.huaweicloud.com/centos/RPM-GPG-KEY-CentOS-7

#released updates 
[updates]
name=CentOS-$releasever - Updates - repo.huaweicloud.com
baseurl=https://repo.huaweicloud.com/centos/$releasever/updates/$basearch/
#mirrorlist=https://mirrorlist.centos.org/?release=$releasever&arch=$basearch&repo=updates
gpgcheck=1
gpgkey=https://repo.huaweicloud.com/centos/RPM-GPG-KEY-CentOS-7

#additional packages that may be useful
[extras]
name=CentOS-$releasever - Extras - repo.huaweicloud.com
baseurl=https://repo.huaweicloud.com/centos/$releasever/extras/$basearch/
#mirrorlist=https://mirrorlist.centos.org/?release=$releasever&arch=$basearch&repo=extras
gpgcheck=1
gpgkey=https://repo.huaweicloud.com/centos/RPM-GPG-KEY-CentOS-7

#additional packages that extend functionality of existing packages
[centosplus]
name=CentOS-$releasever - Plus - repo.huaweicloud.com
baseurl=https://repo.huaweicloud.com/centos/$releasever/centosplus/$basearch/
#mirrorlist=https://mirrorlist.centos.org/?release=$releasever&arch=$basearch&repo=centosplus
gpgcheck=1
enabled=0
gpgkey=https://repo.huaweicloud.com/centos/RPM-GPG-KEY-CentOS-7
---------
更新软件源目录
yum clean all
yum makecache fast
//配置好1台后,记得scp分发到其他机器,然后更新软件源目录
  • 1.
  • 2.
  • 3.
  • 4.
  • 5.
  • 6.
  • 7.
  • 8.
  • 9.
  • 10.
  • 11.
  • 12.
  • 13.
  • 14.
  • 15.
  • 16.
  • 17.
  • 18.
  • 19.
  • 20.
  • 21.
  • 22.
  • 23.
  • 24.
  • 25.
  • 26.
  • 27.
  • 28.
  • 29.
  • 30.
  • 31.
  • 32.
  • 33.
  • 34.
  • 35.
  • 36.
  • 37.
  • 38.
  • 39.
  • 40.
  • 41.
  • 42.
  • 43.
  • 44.
  • 45.
  • 46.
  • 47.
------------安装系统依赖包------------------------------------
yum install -y conntrack ipvsadm ipset jq iptables curl sysstat
yum install -y   libseccomp wget vim net-tools git  socat  ipvsadm ebtables  psmisc
yum install -y   nfs-utils  telnet device-mapper-persistent-data lvm2  network-scripts tar
yum install -y   lrzsz  subversion gpm unzip zip gcc  yum-tuils device-mapper-persistent-data
  • 1.
  • 2.
  • 3.
  • 4.
  • 5.

7、更改系统句柄

每台机器都执行一遍
vim /etc/security/limits.conf
-------------------------------
* soft nofile 655360
* hard nofile 131072
* soft nproc 655350
* hard nproc 655350
* seft memlock unlimited
* hard memlock unlimitedd
------------------------------
vim /etc/security/limits.d/20-nproc.conf
*          soft    nproc     4096----改为65535
root       soft    nproc     unlimited


查看修改结果
ulimit -a
  • 1.
  • 2.
  • 3.
  • 4.
  • 5.
  • 6.
  • 7.
  • 8.
  • 9.
  • 10.
  • 11.
  • 12.
  • 13.
  • 14.
  • 15.
  • 16.
  • 17.

第二十六节 搭建大数据平台CDH6.3.2_mysql_02

8、3台机器时间同步

yum -y install chrony

vim /etc/chrony.conf
-------------------
添加同步服务器  
server ntp1.aliyun.com  iburst
-----------------------
service  chronyd  restart
chronyc sources -v

输入date  查看时间
timedatectl

主要查看以下2个参数为yes,并核对3台机器的时间
     NTP enabled: yes
NTP synchronized: yes
直时间同步非常重要,不然后期安装服务后会报错
  • 1.
  • 2.
  • 3.
  • 4.
  • 5.
  • 6.
  • 7.
  • 8.
  • 9.
  • 10.
  • 11.
  • 12.
  • 13.
  • 14.
  • 15.
  • 16.
  • 17.

第二十六节 搭建大数据平台CDH6.3.2_cloudera_03

第二十六节 搭建大数据平台CDH6.3.2_centos_04

第二十六节 搭建大数据平台CDH6.3.2_centos_05

二、配置系统环境依赖

1、准备安装资源

创建cdh6.3.2文件夹存放文件包
mkdir cdh6.3.2
cd cdh6.3.2
上传文件包到机器上
------------------------------------------
cdh6.3.2 离线包:
CDH-6.3.2-1.cdh6.3.2.p0.1605554-el7.parcel
CDH-6.3.2-1.cdh6.3.2.p0.1605554-el6.parcel.sha256
manifest.json


cdh6.3.1 的CM 包:
cloudera-manager-daemons-6.3.1-1466458.el7.x86_64.rpm
cloudera-manager-server-6.3.1-1466458.el7.x86_64.rpm
cloudera-manager-agent-6.3.1-1466458.el7.x86_64.rpm
cloudera-manager-server-db-2-6.3.1-1466458.el7.x86_64.rpm
enterprise-debuginfo-6.3.1-1466458.el7.x86_64.rpm
oracle-j2sdk1.8-1.8.0+update181-1.x86_64.rpm

jdbc 驱动:
mysql-connector-java-5.1.49.tar.gz
  • 1.
  • 2.
  • 3.
  • 4.
  • 5.
  • 6.
  • 7.
  • 8.
  • 9.
  • 10.
  • 11.
  • 12.
  • 13.
  • 14.
  • 15.
  • 16.
  • 17.
  • 18.
  • 19.
  • 20.
  • 21.

第二十六节 搭建大数据平台CDH6.3.2_centos_06

2、安装jdk

3台机器节点都要配置:jdk 
rpm -ivh oracle-j2sdk1.8-1.8.0+update181-1.x86_64.rpm

vim /etc/profile
-------------
###安装jdk####
export JAVA_HOME=/usr/java/jdk1.8.0_181-cloudera
export CLASSPATH=.:$JAVA_HOME/jre/lib:$JAVA_HOME/lib:$JAVA_HOME/lib/tools.jar
PATH=$PATH:$HOME/bin:$JAVA_HOME/bin
----------
source /etc/profile

java -version
  • 1.
  • 2.
  • 3.
  • 4.
  • 5.
  • 6.
  • 7.
  • 8.
  • 9.
  • 10.
  • 11.
  • 12.
  • 13.

第二十六节 搭建大数据平台CDH6.3.2_centos_07

3、安装mariadb-server

yum install -y mariadb-server 

启动应用服务
service mariadb start
chkconfig mariadb on 

设置初始化,密码自己设置
mysql_secure_installation

登录
mysql -uroot -proot
  • 1.
  • 2.
  • 3.
  • 4.
  • 5.
  • 6.
  • 7.
  • 8.
  • 9.
  • 10.
  • 11.

第二十六节 搭建大数据平台CDH6.3.2_centos_08

4、配置 httpd 分发服务器

安装
yum install -y httpd
  • 1.
  • 2.
vim /etc/httpd/conf/httpd.conf
-------------------
修改/etc/httpd/conf/httpd.conf配置文件,在<IfModule mime_module>中修改以下内容

第284行
AddType application/x-gzip .gz .tgz .parcel
-------------------
service httpd start 
chkconfig httpd on
  • 1.
  • 2.
  • 3.
  • 4.
  • 5.
  • 6.
  • 7.
  • 8.
  • 9.

第二十六节 搭建大数据平台CDH6.3.2_cloudera_09

mv cdh6.3.2/  /var/www/html/
cd /var/www/html/
  • 1.
  • 2.

第二十六节 搭建大数据平台CDH6.3.2_centos_10

5、制作自定义源

cd cdh6.3.2/
yum install -y createrepo
制作自定义源
createrepo .
  • 1.
  • 2.
  • 3.
  • 4.

第二十六节 搭建大数据平台CDH6.3.2_mysql_11

第二十六节 搭建大数据平台CDH6.3.2_centos_12

vim /etc/yum.repos.d/cloduera-manger.repo
---------
[cmrepo]
name = cm_repo
baseurl =http://192.168.80.101/cdh6.3.2
enable = 1
gpgcheck = 0
----------
重新加载
yum clean all
rm -rf /var/run/yum.pid
yum makecache fast
  • 1.
  • 2.
  • 3.
  • 4.
  • 5.
  • 6.
  • 7.
  • 8.
  • 9.
  • 10.
  • 11.
  • 12.
对102、103主机执行命令同步:
cd /etc/yum.repos.d
scp cloduera-manger.repo lyc-80-102:/etc/yum.repos.d/

yum clean all
yum makecache fast
  • 1.
  • 2.
  • 3.
  • 4.
  • 5.
  • 6.

第二十六节 搭建大数据平台CDH6.3.2_cloudera_13

第二十六节 搭建大数据平台CDH6.3.2_centos_14

6、配置mysql-jdbc

mkdir -p /usr/share/java
pwd
/var/www/html/cdh6.3.2    ///软件包存放位置  要记住
cd  /var/www/html/cdh6.3.2
tar -zxvf mysql-connector-java-5.1.49.tar.gz
cd mysql-connector-java-5.1.49
移动jar包到/usr/share/java/
cp -ap mysql-connector-java-5.1.49-bin.jar  /usr/share/java/
cd /usr/share/java/

改名,给权限
mv 
chmod 777 -R mysql-connector-java.jar
  • 1.
  • 2.
  • 3.
  • 4.
  • 5.
  • 6.
  • 7.
  • 8.
  • 9.
  • 10.
  • 11.
  • 12.
  • 13.

第二十六节 搭建大数据平台CDH6.3.2_centos_15

三、安装CDH6.3.2所需环境

1、安装所需依赖包

3个节点都安装:
yum -y install  chkconfig python bind-utils psmisc libxslt zlib sqlite cyrus-sasl-plain 
yum -y install  fuse fuse-libs redhat-lsb postgresql* portmap mod_ssl openssl-devel 
yum -y install  cyrus-sasl-gssapi python-psycopg2 MySQL-python
  • 1.
  • 2.
  • 3.
  • 4.

第二十六节 搭建大数据平台CDH6.3.2_mysql_16

2、安装cloudera-server

再次合适自己的java环境
java -
  • 1.
  • 2.

第二十六节 搭建大数据平台CDH6.3.2_centos_17

安装cloudera-manager-server端节点到101机器
yum install -y cloudera-manager-server
  • 1.
  • 2.

第二十六节 搭建大数据平台CDH6.3.2_cloudera_18

3、在mysql中建CM需要库

登录数据库
mysql -uroot -proot
执行sql语句
mysql> create database cmf character set utf8;
mysql> grant all privileges on cmf.* to 'cmf'@'%' identified by 'cmf_1234' with grant option;
刷新数据库
mysql> flush privileges;
  • 1.
  • 2.
  • 3.
  • 4.
  • 5.
  • 6.
  • 7.

第二十六节 搭建大数据平台CDH6.3.2_mysql_19

再次登录数据库,以cmf身份,数据库密码cmf_1234
mysql -ucmf -pcmf_1234
  • 1.
  • 2.

第二十六节 搭建大数据平台CDH6.3.2_cloudera_20

4、注入需要的库

注入CM-server库与CM-agent端的server
pwd
/usr/share/java
执行
/opt/cloudera/cm/schema/scm_prepare_database.sh mysql cmf cmf cmf_1234
  • 1.
  • 2.
  • 3.
  • 4.
  • 5.

第二十六节 搭建大数据平台CDH6.3.2_cloudera_21

四、配置Cloudera-Manager端

1、安装启动CM

启动
service cloudera-scm-server start 
查看启动日志
cd  /var/log/cloudera-scm-server/
tail  -f  cloudera-scm-server.log
【主要查看2个地方】
0.0.0.0:7180
Started Jetty server
------看到这,说明server端启动成功
  • 1.
  • 2.
  • 3.
  • 4.
  • 5.
  • 6.
  • 7.
  • 8.
  • 9.
[root@lyc-80-101 cloudera-scm-server]# pwd
/var/log/cloudera-scm-server

[root@lyc-80-101 cloudera-scm-server]# tail  -f  cloudera-scm-server.log
  • 1.
  • 2.
  • 3.
  • 4.

第二十六节 搭建大数据平台CDH6.3.2_mysql_22

2、打开主机7180页面

浏览器输入
192.168.80.101:7180
用户名admin  密码admin
  • 1.
  • 2.
  • 3.

第二十六节 搭建大数据平台CDH6.3.2_mysql_23

第二十六节 搭建大数据平台CDH6.3.2_mysql_24

第二十六节 搭建大数据平台CDH6.3.2_cloudera_25

实验环境,选择免费版即可

第二十六节 搭建大数据平台CDH6.3.2_centos_26

第二十六节 搭建大数据平台CDH6.3.2_centos_27

给集群起个名字  bigdata_cdh  //名字随便起
  • 1.

第二十六节 搭建大数据平台CDH6.3.2_mysql_28

添加集群主机IP

192.168.80.[101-103]

第二十六节 搭建大数据平台CDH6.3.2_mysql_29

3、选择存储库

存储库位置
http://192.168.80.101/cdh6.3.2
  • 1.
  • 2.

第二十六节 搭建大数据平台CDH6.3.2_centos_30

第二十六节 搭建大数据平台CDH6.3.2_centos_31

4、填写SSH 登录凭据

第二十六节 搭建大数据平台CDH6.3.2_cloudera_32

第二十六节 搭建大数据平台CDH6.3.2_cloudera_33

分发数据到各节点,注意是否报错-----ps等待时间大约10分钟

第二十六节 搭建大数据平台CDH6.3.2_cloudera_34

注意观察后台日志

第二十六节 搭建大数据平台CDH6.3.2_centos_35

第二十六节 搭建大数据平台CDH6.3.2_centos_36

持续观察后台日志

第二十六节 搭建大数据平台CDH6.3.2_cloudera_37

第二十六节 搭建大数据平台CDH6.3.2_centos_38

5、在3台机器上全部执行以下命令

echo 10 >  /proc/sys/vm/swappiness
echo never > /sys/kernel/mm/transparent_hugepage/defrag
echo never > /sys/kernel/mm/transparent_hugepage/enabled
  • 1.
  • 2.
  • 3.
echo "vm.swappiness = 10" >> /etc/sysctl.conf 
sysctl -p
  • 1.
  • 2.
vim /etc/rc.local
------------
echo never > /sys/kernel/mm/transparent_hugepage/defrag
echo never > /sys/kernel/mm/transparent_hugepage/enabled
-----------
  • 1.
  • 2.
  • 3.
  • 4.
  • 5.

第二十六节 搭建大数据平台CDH6.3.2_mysql_39

第二十六节 搭建大数据平台CDH6.3.2_cloudera_40

第二十六节 搭建大数据平台CDH6.3.2_centos_41

6、必须先安装zk组件

第二十六节 搭建大数据平台CDH6.3.2_centos_42

第二十六节 搭建大数据平台CDH6.3.2_cloudera_43

第二十六节 搭建大数据平台CDH6.3.2_cloudera_44

第二十六节 搭建大数据平台CDH6.3.2_mysql_45

第二十六节 搭建大数据平台CDH6.3.2_mysql_46

五、安装集群组件

1、排查页面集群信息

查看管理页面报错,需先处理掉报错信息

第二十六节 搭建大数据平台CDH6.3.2_centos_47

第二十六节 搭建大数据平台CDH6.3.2_mysql_48

第二十六节 搭建大数据平台CDH6.3.2_centos_49

重启集群后再看管理页面已经没异常信息了

第二十六节 搭建大数据平台CDH6.3.2_centos_50

第二十六节 搭建大数据平台CDH6.3.2_mysql_51

第二十六节 搭建大数据平台CDH6.3.2_cloudera_52

第二十六节 搭建大数据平台CDH6.3.2_cloudera_53

2、安装hdfs组件

第二十六节 搭建大数据平台CDH6.3.2_centos_54

第二十六节 搭建大数据平台CDH6.3.2_mysql_55

第二十六节 搭建大数据平台CDH6.3.2_centos_56

第二十六节 搭建大数据平台CDH6.3.2_mysql_57

第二十六节 搭建大数据平台CDH6.3.2_mysql_58

第二十六节 搭建大数据平台CDH6.3.2_centos_59

排除hdfs告警信息

第二十六节 搭建大数据平台CDH6.3.2_cloudera_60

第二十六节 搭建大数据平台CDH6.3.2_mysql_61

第二十六节 搭建大数据平台CDH6.3.2_centos_62

第二十六节 搭建大数据平台CDH6.3.2_mysql_63

排除集群告警信息

第二十六节 搭建大数据平台CDH6.3.2_mysql_64

第二十六节 搭建大数据平台CDH6.3.2_centos_65

排除DataNode节点告警

第二十六节 搭建大数据平台CDH6.3.2_mysql_66

第二十六节 搭建大数据平台CDH6.3.2_mysql_67

第二十六节 搭建大数据平台CDH6.3.2_centos_68

第二十六节 搭建大数据平台CDH6.3.2_centos_69

3、安装YARN

第二十六节 搭建大数据平台CDH6.3.2_centos_70

第二十六节 搭建大数据平台CDH6.3.2_cloudera_71

第二十六节 搭建大数据平台CDH6.3.2_mysql_72

安装过程如下

第二十六节 搭建大数据平台CDH6.3.2_mysql_73

第二十六节 搭建大数据平台CDH6.3.2_cloudera_74

查看告警信息

第二十六节 搭建大数据平台CDH6.3.2_cloudera_75

第二十六节 搭建大数据平台CDH6.3.2_centos_76

告警已消除

第二十六节 搭建大数据平台CDH6.3.2_mysql_77

4、安装hive

安装hive之前,先创建数据库

在101登录mysql数据库
mysql -uroot -proot
执行需要创建的数据库sql语句
-------------------
create database cdh_hive default character set latin1;
grant all privileges on cdh_hive.* to 'hive'@'%' identified by 'Hive_123' with grant option;
create database cdh_oozie default character set utf8;
grant all privileges on cdh_oozie.* to 'oozie'@'%' identified by 'Oozie_123' with grant option;
create database cdh_hue default character set utf8;
grant all privileges on cdh_hue.* to 'hue'@'%' identified by 'Hue_123' with grant option;
create database cdh_rm default character set utf8;
grant all privileges on cdh_rm.* to 'rm'@'%' identified by 'Rm_123' with grant option;
flush privileges;
--------------------
解读
数据库cdh_hive  用户名hive 密码Hive_123   //目前只记住这个即可
数据库cdh_oozie 用户名oozie  密码Oozie_123
数据库cdh_hue   用户名hue   密码Hue_123
数据库cdh_rm    用户名rm  密码Rm_123
  • 1.
  • 2.
  • 3.
  • 4.
  • 5.
  • 6.
  • 7.
  • 8.
  • 9.
  • 10.
  • 11.
  • 12.
  • 13.
  • 14.
  • 15.
  • 16.
  • 17.
  • 18.
  • 19.

第二十六节 搭建大数据平台CDH6.3.2_mysql_78

第二十六节 搭建大数据平台CDH6.3.2_mysql_79

第二十六节 搭建大数据平台CDH6.3.2_centos_80

第二十六节 搭建大数据平台CDH6.3.2_centos_81

记住端口号

Hive Metastore 服务器端口  9083

Hive Server2     服务器端口  10000

第二十六节 搭建大数据平台CDH6.3.2_mysql_82

第二十六节 搭建大数据平台CDH6.3.2_centos_83

5、安装Impala

第二十六节 搭建大数据平台CDH6.3.2_mysql_84

第二十六节 搭建大数据平台CDH6.3.2_centos_85

第二十六节 搭建大数据平台CDH6.3.2_centos_86

警告提醒,要求重启hdfs,重启即可

第二十六节 搭建大数据平台CDH6.3.2_centos_87

第二十六节 搭建大数据平台CDH6.3.2_cloudera_88

6、安装spark

第二十六节 搭建大数据平台CDH6.3.2_cloudera_89

第二十六节 搭建大数据平台CDH6.3.2_cloudera_90

第二十六节 搭建大数据平台CDH6.3.2_mysql_91

第二十六节 搭建大数据平台CDH6.3.2_centos_92

告警提示,需要重启Yarn

第二十六节 搭建大数据平台CDH6.3.2_cloudera_93

第二十六节 搭建大数据平台CDH6.3.2_mysql_94

第二十六节 搭建大数据平台CDH6.3.2_cloudera_95

配置hive计算引擎,由MapReduce变为spark

第二十六节 搭建大数据平台CDH6.3.2_centos_96

7、安装Hbase

第二十六节 搭建大数据平台CDH6.3.2_cloudera_97

第二十六节 搭建大数据平台CDH6.3.2_centos_98

第二十六节 搭建大数据平台CDH6.3.2_centos_99

安装完成即可

第二十六节 搭建大数据平台CDH6.3.2_cloudera_100

8、安装Flume

第二十六节 搭建大数据平台CDH6.3.2_centos_101

第二十六节 搭建大数据平台CDH6.3.2_cloudera_102

第二十六节 搭建大数据平台CDH6.3.2_mysql_103

第二十六节 搭建大数据平台CDH6.3.2_mysql_104

第二十六节 搭建大数据平台CDH6.3.2_mysql_105

第二十六节 搭建大数据平台CDH6.3.2_mysql_106

9、安装Sqoop

第二十六节 搭建大数据平台CDH6.3.2_centos_107

第二十六节 搭建大数据平台CDH6.3.2_cloudera_108

第二十六节 搭建大数据平台CDH6.3.2_mysql_109

10、安装Oozie

第二十六节 搭建大数据平台CDH6.3.2_cloudera_110

第二十六节 搭建大数据平台CDH6.3.2_mysql_111

第二十六节 搭建大数据平台CDH6.3.2_cloudera_112

由于需要有数据库支撑,填写数据库账号、密码,测试后正常

在安装hive的时候,已经创建过的数据库有
数据库cdh_oozie 用户名oozie  密码Oozie_123
  • 1.
  • 2.

第二十六节 搭建大数据平台CDH6.3.2_centos_113

第二十六节 搭建大数据平台CDH6.3.2_centos_114

第二十六节 搭建大数据平台CDH6.3.2_mysql_115

11、安装Kafak

第二十六节 搭建大数据平台CDH6.3.2_cloudera_116

第二十六节 搭建大数据平台CDH6.3.2_mysql_117

第二十六节 搭建大数据平台CDH6.3.2_cloudera_118

第二十六节 搭建大数据平台CDH6.3.2_cloudera_119

12、安装Hue

第二十六节 搭建大数据平台CDH6.3.2_centos_120

第二十六节 搭建大数据平台CDH6.3.2_cloudera_121

第二十六节 搭建大数据平台CDH6.3.2_centos_122

填写hue数据库账号、密码
数据库cdh_hue   用户名hue   密码Hue_123
  • 1.
  • 2.

第二十六节 搭建大数据平台CDH6.3.2_mysql_123

第二十六节 搭建大数据平台CDH6.3.2_cloudera_124

第二十六节 搭建大数据平台CDH6.3.2_mysql_125

第二十六节 搭建大数据平台CDH6.3.2_cloudera_126

13、其他操作

开启hdfs权限

vim /etc/passwd

第二十六节 搭建大数据平台CDH6.3.2_centos_127

测试
su - hdfs
hdfs dfs -ls /
  • 1.
  • 2.
  • 3.

第二十六节 搭建大数据平台CDH6.3.2_centos_128

hdfs dfs -ls /
  • 1.

第二十六节 搭建大数据平台CDH6.3.2_mysql_129

查看hdfs状态

第二十六节 搭建大数据平台CDH6.3.2_centos_130

第二十六节 搭建大数据平台CDH6.3.2_mysql_131

第二十六节 搭建大数据平台CDH6.3.2_cloudera_132

第二十六节 搭建大数据平台CDH6.3.2_mysql_133

查看yarn界面

第二十六节 搭建大数据平台CDH6.3.2_cloudera_134

第二十六节 搭建大数据平台CDH6.3.2_centos_135

第二十六节 搭建大数据平台CDH6.3.2_cloudera_136

第二十六节 搭建大数据平台CDH6.3.2_mysql_137

跑一个圆周率程序测试下
hadoop jar /opt/cloudera/parcels/CDH/jars/hadoop-examples.jar   pi 16 1000
  • 1.
  • 2.

第二十六节 搭建大数据平台CDH6.3.2_cloudera_138

第二十六节 搭建大数据平台CDH6.3.2_cloudera_139

去yarn的webUI界面查看计算提交状态

第二十六节 搭建大数据平台CDH6.3.2_centos_140

第二十六节 搭建大数据平台CDH6.3.2_mysql_141

跑完后的状态

第二十六节 搭建大数据平台CDH6.3.2_cloudera_142

点log可以查看日志

第二十六节 搭建大数据平台CDH6.3.2_cloudera_143

查看map task

第二十六节 搭建大数据平台CDH6.3.2_centos_144

查看reduce task

第二十六节 搭建大数据平台CDH6.3.2_mysql_145

为什么map task有16个?二reduce task只有1个?

因为MR计算的时候,map端是分开计算的,reduce端是合并计算结果,然后进行结果输出,体现的‘分而治之’思维。

查看下MR计算后hdfs上的文件夹

第二十六节 搭建大数据平台CDH6.3.2_centos_146

第二十六节 搭建大数据平台CDH6.3.2_centos_147

14、测试hive

可以直接输入hive,进行连接,但是连接后的数据端查看不方便
我们可以考虑使用beeline进行hive操作
beeline其实连接的是hiveserver2客端户
-----------
beeline
!connect jdbc:hive2://localhost:10000/default
  • 1.
  • 2.
  • 3.
  • 4.
  • 5.
  • 6.

第二十六节 搭建大数据平台CDH6.3.2_cloudera_148

创建test01数据库,测试下hive功能是否正常
0: jdbc:hive2://localhost:10000/default> creat database test01;
0: jdbc:hive2://localhost:10000/default> show databases;
+----------------+
| database_name  |
+----------------+
| default        |
| test01         |
+----------------+

0: jdbc:hive2://localhost:10000/default> use test01;
  • 1.
  • 2.
  • 3.
  • 4.
  • 5.
  • 6.
  • 7.
  • 8.
  • 9.
  • 10.
  • 11.
建表
CREATE TABLE test_data (
    id INT,
    name STRING,
    age INT
) STORED AS ORC;

0: jdbc:hive2://localhost:10000/default> show tables;
+------------+
|  tab_name  |
+------------+
| test_data  |
+------------+
  • 1.
  • 2.
  • 3.
  • 4.
  • 5.
  • 6.
  • 7.
  • 8.
  • 9.
  • 10.
  • 11.
  • 12.
  • 13.

第二十六节 搭建大数据平台CDH6.3.2_mysql_149

将生成1000条随机数据,并插入到test_data表中
INSERT INTO TABLE test_data
SELECT
    rand() * 100 AS id,
    concat('name', rand() * 100) AS name,
    rand() * 100 AS age
FROM
    test_data
LIMIT 1000;
  • 1.
  • 2.
  • 3.
  • 4.
  • 5.
  • 6.
  • 7.
  • 8.
  • 9.

第二十六节 搭建大数据平台CDH6.3.2_cloudera_150

15、hue查看

第二十六节 搭建大数据平台CDH6.3.2_mysql_151

主要查看作业界面

第二十六节 搭建大数据平台CDH6.3.2_cloudera_152

其他功能,有时间再慢慢研究

第二十六节 搭建大数据平台CDH6.3.2_centos_153

【总结】
CDH确实可以简化大数据集群的安装,但是资源开销比较大
对于平时做测试实验的我们来说,二进制安装单台机器测试数据即可
在企业真是的生产环境中,CDH确实优势明显,能快速部署大数据集群。