从老集群迁移数据到新集群是一个常见需求。在传统模式部署的 HDFS 集群上可以使用 distcp 进行数据迁移。但 KDP 上没有 YARN,无法直接使用 distcp 进行数据迁移。作为替代,我们可以使用 spark-distcp 进行数据迁移。
组件依赖
请安装以下组件:
spark-on-k8s-operator
进行数据迁移
假设老集群的 HDFS 开启了 Namenode 高可用,地址分别为
hdfs://namenode-1:8020
hdfs://namenode-2:8020
KDP 上的 HDFS Namenode 地址则分别为
hdfs-namenode-0.hdfs-namenode.kdp-data.svc.cluster.local:8020
hdfs-namenode-1.hdfs-namenode.kdp-data.svc.cluster.local:8020