大数据环境配置-Hadoop、Kafka、Hive、redis、Navicat

本文链接：https://blog.youkuaiyun.com/m0_72791092/article/details/140312821

本文目的主要是理清逻辑，整理相关概念，主要为了知其所以然，会附上本人实践过程参考的文章以及本人踩的一些坑。

Kafka可以用于实时数据流的收集，然后将数据存储到Hadoop集群中；Hive可以用于对这些数据进行查询和分析；而Zookeeper则可以用于这些组件之间的协调和状态管理。

一、Hadoop集群部署

桥接模式（Bridged Mode）：

NAT模式（Network Address Translation Mode）：

二、Zookeeper

三、Kafka

四、Hive

五、本机和虚拟机安装mysql并且连接Navicat

六、dataX、Maxwell

七、REDIS数据库

八、Flume

一、Hadoop集群部署

Hadoop是一个开源的分布式存储和计算框架，集群部署指的是将Hadoop安装并配置在多台服务器上，形成一个可以处理和存储大量数据的分布式系统。
- 功能：提供高可靠性、高吞吐量的数据访问，支持大规模数据集的存储和处理。

Hadoop——集群搭建(更新版)(步骤图文超详细版)_hadoop集群搭建-优快云博客

因为Hadoop是基于Linux操作系统，所以：

1、首先下载VMware，安装虚拟机：用CentOS系统来搭建Linux系统，因为它免费(CentOS系统是基于 Linux 内核的自由、开源的服务器操作系统）

2、配置Centos系统静态IP。配置静态地址是一件十分重要的事情，不然你今天关机重启后，就会换了一个新的IP地址，这就会导致你访问不到远程的Linux主机了。

-关于桥接模式（Bridged Mode）和NAT模式（Network Address Translation Mode）：虚拟机网络配置中的两种不同模式。

桥接模式（Bridged Mode）：

独立网络设备：虚拟机表现得像网络中的一个独立设备，拥有自己的MAC地址和IP地址。

直接连接：虚拟机直接连接到物理网络，可以被网络中的其他设备直接访问。

IP地址分配：虚拟机可以从DHCP服务器获取IP地址，或手动配置静态IP地址。

网络隔离：虚拟机与其他设备在同一网络层面上，没有隔离。

网络性能：通常提供较好的网络性能，因为数据包直接在物理网络和虚拟机之间传输。

NAT模式（Network Address Translation Mode）：

共享网络连接：虚拟机通过宿主机的网络连接共享访问外部网络。

地址转换：宿主机使用NAT技术将虚拟机的私有IP地址转换为宿主机的公共IP地址。

网络隔离：虚拟机与外部网络之间存在隔离，虚拟机对外不可见。

IP地址分配：虚拟机通常获得由虚拟DHCP服务器分配的私有IP地址。

网络配置简单：对于宿主机用户来说，配置和管理相对简单，因为不需要关心外部网络的细节。

3.解压jdk压缩包，配置环境变量

问题1: 按步骤：cd /software (注意有空格），然后不行。于是用ls命令查看目录，但只有anaconda-ks.cfg。

原因在于：

[root@localhost ~] 是linux主目录,相当于/root
[root@localhost /] 是根分区,相当于根目录
[root@localhost ~] # pwd //查看目前所在的工作目录的绝对路径
[root@localhost ~]# cd / //进入根目录
[root@localhost