KDP场景教程 | 从外部 HDFS 导入数据到 KDP HDFS

从老集群迁移数据到新集群是一个常见需求。在传统模式部署的 HDFS 集群上可以使用 distcp 进行数据迁移。但 KDP 上没有 YARN,无法直接使用 distcp 进行数据迁移。作为替代,我们可以使用 spark-distcp 进行数据迁移。

组件依赖

请安装以下组件:

  • spark-on-k8s-operator

进行数据迁移

假设老集群的 HDFS 开启了 Namenode 高可用,地址分别为

  • hdfs://namenode-1:8020

  • hdfs://namenode-2:8020

KDP 上的 HDFS Namenode 地址则分别为

  • hdfs-namenode-0.hdfs-namenode.kdp-data.svc.cluster.local:8020

  • hdfs-namenode-1.hdfs-namenode.kdp-data.svc.cluster.local:8020

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值