
分布式计算
文章平均质量分 70
分布式计算
Bulut0907
大数据、机器学习、编程语言、IT相关技术分享, 喜欢请关注、点赞、收藏哦!
展开
-
Java/Scala客户端获取HA高可用HDFS的Active NameNode
目录1. Java/Scala客户端获取HA高可用HDFS的Active NameNode1. Java/Scala客户端获取HA高可用HDFS的Active NameNode通过轮询的方式判断多个Namenode是否可用。如果当前NameNode不可用,则继续判断下一个;如果可用,则获取当前NameNode的Uri示例代码import org.apache.hadoop.conf.Configurationimport org.apache.hadoop.fs.FileSystemimport原创 2022-05-20 09:41:51 · 1111 阅读 · 2 评论 -
Centos7上Hadoop 3.3.1的高可用HA安装过程
目录1. 安装要求2. 下载(在clickhouse1操作)3. 配置文件修改(在clickhouse1操作)3.1 hadoop-env.sh3.2 core-site.xml3.3 hdfs-site.xml3.4 mapred-site.xml3.5 yarn-site.xml3.6 修改workers文件4. hadoop目录分发(在clickhouse1操作)5. 初始化和启动(在clickhouse1操作)5.1 HDFS5.2 YARN1. 安装要求至少3台服务器,本示例3台服务器的ho原创 2021-07-21 17:43:43 · 3327 阅读 · 0 评论 -
Python调用HDFS的API
目录1. Python调用HDFS的API1. Python调用HDFS的API安装依赖包[root@bigdata001 ~]# [root@bigdata001 ~]# pip3 install pyhdfs[root@bigdata001 ~]#原创 2022-03-22 14:12:58 · 898 阅读 · 0 评论 -
HDFS储存模型和读写流程
目录1. HDFS储存模型2. 角色功能3. Namenode元数据持久化4. SecondNameNode5. 安全模式6. Block的放置策略7. HDFS写流程8. HDFS读流程1. HDFS储存模型文件按线性切割成block,每个block具有offset和id文件与文件的block大小可以不一样一个文件除最后一个block,其它block的大小都一样block的大小根据硬件的I/O特性调整block被分散到集群的各个节点中,具有locationblock具有副本replicat原创 2022-06-23 09:05:02 · 665 阅读 · 0 评论 -
Hadoop HDFS启动报异常:We expected txid 130043, but got txid 229381
目录1. 背景2. 解决办法1. 背景在服务器断电重启后,重新启动HDFS, 访问http://bigdata001:9870不能访问,而http://bigdata002:9870和http://bigdata003:9870是可以访问的之后查看bigdata001上的/opt/hadoop-3.3.1/logs/hadoop-root-namenode-bigdata001.log,查看具体的问题如下:2021-11-12 07:31:34,852 INFO org.apache.hadoop.原创 2022-03-07 10:08:44 · 767 阅读 · 0 评论 -
Centos7上Hadoop 3.3.1的分布式集群安装过程
目录1. 集群规划2. 下载(在bigdata001操作)3. 配置文件修改(在bigdata001操作)3.1 hadoop-env.sh3.2 core-site.xml3.3 hdfs-site.xml3.4 mapred-site.xml3.5 yarn-site.xml3.6 修改workers文件4. hadoop目录分发(在bigdata001操作)5. 初始化和启动(在bigdata001操作)5.1 添加环境变量5.2 HDFS5.3 YARN1. 集群规划每台服务器相互设置ssh无原创 2022-07-12 08:33:21 · 719 阅读 · 0 评论 -
Spark3.1.2 Standalone高可用HA分布式部署(含pyspark)
以下操作除非特殊说明,否则都是在bigdata001上操作。现在kill掉bigdata001上的master。原创 2021-10-15 12:00:17 · 1992 阅读 · 0 评论 -
Pyspark Windows测试环境部署(Hadoop、Spark、IDEA)、Pyspark读取Mysql数据、Spark-submit命令提交Pyspark程序
新增hadoop-3.3.1\namenode、hadoop-3.3.1\datanode、hadoop-3.3.1\checkpoint、hadoop-3.3.1\checkpoint-edits目录。通过http://localhost:9870查看HDFS的界面,通过http://localhost:8088查看Yarn的界面,可以看到master和slave都已经启动成功。windows解压tar.gz失败,我们可以上传到linux上,解压再打包成zip格式,再到windows上解压zip文件。原创 2022-03-15 14:20:00 · 1219 阅读 · 0 评论