分布式运算总是离不开大集群,大量数据分析和存储构建跨域的异地集群也是非常正常的,所以今天在ec2上尝试了一下跨域的整体hadoop集群配置。
使用5台机器分别位于两个不同的域:
域A:namenode.areaA 域B:datanode03.areaB
datanode01.areaA datanode04.areaB
datanode02.areaA
域A和域B可以是随意的两个域,但是要求有上级DNS服务可以使两个域网络互通,接下来讲各个节点的配置:
namenode.areaA 作为namenode 和 jobtracker,
core-site.xml中使用完整地址配置即 hdfs://namenode.areaA:9000,因为jobtracker会使用该配置来让tasktracker连接HDFS文件系统,如果只配置机器名会导致