- 博客(23)
- 收藏
- 关注
原创 csv表 导入hive数据表
(根据自己创建的表名和想查询的数字更改)LOCATION '/csv' -- 指向HDFS的CSV文件目录。hdfs dfs -put /本地文件目录 /上传hdfs目录。
2025-04-02 10:30:57
314
原创 大数据各种环境的作用解释及联系
连接性分析:Hadoop 和 YARN:Hadoop 提供存储和计算框架,YARN 管理资源调度,两者紧密集成。Spark 和 Flink:两者都是数据处理引擎,可以与 Hadoop、Kafka 等集成,用于批处理和流处理。Hudi 和 Hadoop:Hudi 依赖 Hadoop 的存储和计算能力,提供高效的数据更新和查询功能。Hudi 0.12.0:基于 Hadoop 的数据湖框架,支持高效的数据更新和查询,适合处理流数据。
2025-04-02 10:27:30
145
原创 2.安装Docker
执行 vim /etc/yum.repos.d/docker-ce.repo,把第一个baseurl中的$releasever改成7,然后保存退出重新安装即可。
2025-04-02 10:23:18
381
原创 CentOS7.x安装hudi-0.11.0
修改apache-maven/conf目录下的settings.xml文件。-- 仅代理 central,排除 confluent -->修改hudi-0.11.0文件夹目录下的pom.xml文件。在hive最下边 zookeeper上添加jetty。-- 增加hudi配置版本的jetty -->-- 增加hudi配置版本的jetty -->修改文件pom.xml解决spark依赖冲突。1170行左右添加阿里云镜像。113行左右添加null。到此hudi就搭建完毕了!修改hudi目录下的文件。
2025-04-01 20:28:05
956
原创 CentOS7.x安装kafka
指定 kafka的绑定监听的地址 advertised.listeners=PLAINTEXT://slave1:9092。# 指定Kafka数据的位置 log.dirs=/opt/module/kafka/kafka-logs。# 指定Kafka数据的位置 log.dirs=/opt/module/kafka/kafka-logs。# 指定Kafka数据的位置 log.dirs=/opt/module/kafka/kafka-logs。# 指定broker的id broker.id=1。
2025-04-01 19:42:56
679
原创 CentOS7.x安装zookeeper
配置zoo.cfg文件的时候一定得记得修改:(如果不配置将启动不了zookeeper)将zookeeper压缩包导入/opt/softwares目录下。# 2888 内部通信端口 3888 选举端口。
2025-04-01 19:33:00
306
原创 CentOS7.x安装spark
解压spark-3.1.1-bin-hadoop3.2.tar安装包到/opt/module目录下。将spark压缩包导入/opt/softwares目录下。# 下载完成后,复制到 Spark 的 jars 目录。# 使用 wget 下载。
2025-04-01 19:29:32
584
原创 安装hive
解决日志jar包冲突,进入/opt/module/hive/lib目录。将hive压缩包导入/opt/softwares目录下。进入hive/conf/
2025-04-01 17:42:08
966
原创 安装Hadoop分布式
启动出现错误,首先使用./sbin/stop-all.sh来停止集群,建议三台都需要重启。配置mapred-site.xml。配置hdfs-site.xml。配置core-site.xml。配置yarn-site.xml。以namenode为例。
2025-04-01 17:31:14
443
原创 安装JDK1.8.0_212
拷贝/etc/profile: scp /etc/profile slave1:/etc/ scp /etc/profile slave2:/etc/拷贝:jdk scp -r /opt/module/jdk1.8.0_212/ slave1:/opt/module/
2025-04-01 17:16:35
238
原创 集群基础配置
第一台: hostnamectl set-hostname master bash 第二台: hostnamectl set-hostname slave1 bash 第三台: hostnamectl set-hostname slave2 bash。继续上述操作: ssh-keygen -t rsa ssh-copy-id master ssh-copy-id slave1 ssh-copy-id slave2。禁用防火墙: systemctl disable firewalld。
2025-04-01 17:11:45
543
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人