
大数据
文章平均质量分 85
GreyZeng
程序员,架构师,项目经理
展开
-
Hudi 数据湖的插入,更新,查询,分析操作示例
接下来是 flink 实时数据分析的服务,首先需要在 master 上启动 kafka,并创建 一个名字为 mytopic 的 topic,详见。然后准备一个 Mave 项目,在 src/main/resources 目录下,将 Hadoop 的一些配置文件拷贝进来,分别是。根据自己的配置调整,然后通过 kakfa 的生产者客户端输入一些数据,这边可以收到这个数据,验证完毕。的基础上进行 Hudi 数据湖的插入,更新,查询操作。更新数据的代码,我们可以做如下调整,完整代码如下。然后,设计实体的数据结构,原创 2022-10-19 23:18:23 · 1761 阅读 · 0 评论 -
Linux 下搭建 Hive 环境
此外,需要准备一个 MySQL 服务器,我这里准备的 MySQL 服务器 IP 是:192.168.100.129,端口是 3306。将下载好的 Hive 安装包和 MySQL 对应的 Connector 包上传到 /datalake 目录下。注:目前这个版本的 Hive,用 MySQL 5.7 版本不会报错,用MySQL 8.0 版本会报错,,如果用的 MySQL 版本不同,对应的 Connector 需要下载可适配 MySQL 版本的。的基础上进行 Hive 的搭建工作。修改 Hive 的配置文件。原创 2022-10-18 19:34:30 · 1204 阅读 · 0 评论 -
Linux 下搭建 HBase 环境
如果 master 节点已经有 Zookeeper 启动了,则可以复用 配置这个选项为 false,如果没装 Zookeeper,则需要把这个选项设置为 true。可正常进入 hbase 的 shell 环境,执行 list,可以查看到当前的表情况。如果使用的软件版本不一致,请以官方搭建文档为准。将解压的软件移动到 /usr/local 目录。此外,hbase-env.sh 还有一个配置。的基础上进行 HBase 的搭建工作。配置 HBase 使用的 jdk,执行。将 jdk 的配置设置为。原创 2022-10-18 16:37:53 · 899 阅读 · 0 评论 -
Linux 下搭建 Hadoop 环境
启动成功后,在 master 和 slave 上分别执行 jps,可以看到 hadoop 相关的进程已经正常启动。需要准备两个节点,一个是 master 节点,另一个是 slave 节点。将配置拷贝到 slave,就无需在 slave 上做同样繁琐的配置操作了。在 master 上把 hadoop 的上述配置文件改好以后,可以执行。以下的配置,在 master 和 slave 上。然后,在 master 节点上进行格式化,执行。然后在 master 上启动 yarn,执行。Hadoop 版本:2.7.5。原创 2022-10-18 09:58:53 · 773 阅读 · 0 评论 -
HDFS 高可用分布式环境搭建
我们再新建一个用户 good ,并且将 good 加入 ooxx 这个组,good 这个用户就可以正常上传文件到。在 node01,node02,node03 上分别启动 journalnode。在 node02,node03,node04 上分别启动 zookeeper。在 node02,node03,node04 下配置环境变量。安装包上传到 node02,node03,node04 的。我们选择 node02,在 node02 上执行。测试,在 node01 上,执行如下命令,原创 2022-09-07 21:27:55 · 523 阅读 · 0 评论 -
HDFS 分布式环境搭建
如果使用 Windows作为客户端,那么可以配置 hosts 条目。每个实例对应的 host 和 ip 地址如下。设置本机的ip到主机名的映射关系,在。上执行如下命令生成本机的密钥和公钥。上都安装Java环境,安装过程略。接下来是 Hadoop 配置,在。接下来,配置 hostname。的公钥发送到另外三个机器,在。的公钥发送到另外三个机器,在。的公钥发送到另外三个机器,在。的公钥发送到另外三个机器,在。首先,需要配置静态 ip,接下来,需要关闭防火墙。在 node01 上。在 node02 上。原创 2022-09-06 21:34:41 · 574 阅读 · 0 评论 -
HDFS 伪分布式环境搭建
将下载好的 JDK 的安装包 jdk-8u202-linux-x64.tar.gz 上传到应用服务器的。第一次启动,datanode 和 secondary 角色会初始化创建自己的数据目录。注:HOSTNAME 自己定义即可,主要要和后面的 hosts 配置中的一样。如果报错或者网络不顺畅,可以直接把下载好的安装包上传到。SSH 免密配置,在需要远程到这个服务器的客户端中。注:ip 地址要和你的服务器地址一样。注:IP 根据你的实际情况来定。初始化和启动 HDFS,执行。创建目录,并初始化一个空的。原创 2022-09-05 21:52:19 · 510 阅读 · 0 评论