Ubuntu上使用Hadoop 2.x 六 HDFS cluster搭建

最新推荐文章于 2024-09-06 22:01:25 发布

一路上有你们赔

最新推荐文章于 2024-09-06 22:01:25 发布

阅读量416

点赞数

准备多个虚拟机

将前文Ubuntu上使用Hadoop 2.x 四 Multi-node cluster 基本设置的hd1虚拟机hostname修改为namenode, IP: 192.168.1.71

然后以此克隆出虚拟机hd2，hostname名为resourcemanager, IP: 192.168.1.72, 然后继续克隆出datanode1, datanode2和datanode3

resourcemanager本文没有用到，可以忽略。


   
   
    
    VM name: hd1
   
   

   
   
    
    hostname: namenode
   
   

   
   
    
    IP: 
    
    192.168.1.71


   
   
    
    VM name: hd2
   
   

   
   
    
    hostname: resourcemanager
   
   

   
   
    
    IP: 
    
    192.168.1.72


   
   
    
    VM name: hd3
   
   

   
   
    
    hostname: datanode1
   
   

   
   
    
    IP: 
    
    192.168.1.73


   
   
    
    VM name: hd4
   
   

   
   
    
    hostname: datanode2
   
   

   
   
    
    IP: 
    
    192.168.1.74


   
   
    
    VM name: hd5
   
   

   
   
    
    hostname: datanode3
   
   

   
   
    
    IP: 
    
    192.168.1.75

配置/etc/hosts

同时在所有相关系统的/etc/hosts文件中添加下面一段配置：

[plain]view plaincopy 
   
 
   
 #hdfs cluster                                                                      
168.1.71 namenode  
168.1.72 resourcemanager  
168.1.73 datanode1  
168.1.74 datanode2  
168.1.75 datanode3  

设置namenode server

core-site.xml

现在设置namenode，用hduser登录后，修改/usr/local/hadoop/etc/hadoop/core-site.xml文件如下:

[html]view plaincopy 
   
 
   
 <configuration>  
   <property>  
     <name>fs.default.name</name>  
     <value>hdfs://namenode:9000</value>  
   </property>  
   <property>  
     <name>io.file.buffer.size</name>  
     <value>131072</value>  
   </property>  
 </configuration>  

说明：

1. 分布式系统中必须用hostname而不是localhost来设置namenode的URI,就像上面第一个property的配置

namenode因为已经添加了/etc/hosts的那段配置，所以应该能够找到自己的IP: 192.168.1.71

2. io.file.buffer.size设置成比默认值4096字节(4K)大的131072(128K)，也就是说每次传递的文件字节数多很多。适合于大型分布式HDFS系统，减少IO次数，提高传输效率。

3. core-site.xml的设置适用于所有5台server。

hdfs-site.xml

好，现在配置namenode上的hdfs-site.xml，参考官方文档：

Configurations for NameNode:

Parameter	Value	Notes
`dfs.namenode.name.dir`	Path on the local filesystem where the NameNode stores the namespace and transactions logs persistently.	If this is a comma-delimited list of directories then the name table is replicated in all of the directories, for redundancy.
`dfs.namenode.hosts` /`dfs.namenode.hosts.exclude`	List of permitted/excluded DataNodes.	If necessary, use these files to control the list of allowable datanodes.
`dfs.blocksize`	268435456	HDFS blocksize of 256MB for large file-systems.
`dfs.namenode.handler.count`	100	More NameNode server threads to handle RPCs from large number of DataNodes.

我的配置如下：

[html]view plaincopy 
   
 
   
 <configuration>  
   <property>  
     <name>dfs.replication</name>  
     <value>3</value>  
   </property>  
   <property>  
     <name>dfs.namenode.name.dir</name>  
     <value>file:/home/hduser/mydata/hdfs/namenode</value>  
   </property>  
   <property>  
     <name>dfs.namenode.hosts</name>  
     <value>datanode1,datanode2,datanode3</value>  
   </property>  
   <property>  
     <name>dfs.blocksize</name>  
     <value>268435456</value>  
   </property>  
   <property>  
     <name>dfs.namenode.handler.count</name>  
     <value>100</value>  
   </property>  
 </configuration>  

说明：

1. 第一个是文件复制的数目，有3份拷贝，这是默认值，写在这里只是为了说明

2. 第二个是namenode元数据文件存放目录

当然要确保目录已经创建：

[plain]view plaincopy 
   
 mkdir -p /home/hduser/mydata/hdfs/namenode

3. 第三个是datanode的hostname列表。

4. 第四个是block大小，适合大文件

5. 第五个是namenode的RPC服务的线程数目

设置datanode server

好，配置完namenode后，开始配置三个datanode server，在使用了相同的/etc/hosts中的配置后，使用了相同的core-site.xml文件配置后，现在配置hdfs-site.xml文件

[plain]view plaincopy 
   
 mkdir -p /home/hduser/mydata/hdfs/datanode

[html]view plaincopy 
   
 
   
 <configuration>  
   <property>  
     <name>dfs.datanode.data.dir</name>  
     <value>file:/home/hduser/mydata/hdfs/datanode</value>  
   </property>  
 </configuration>  

启动server

首先在namenode上格式化文件系统

[plain]view plaincopy 
    
 hdfs namenode -format

启动namenode service

[plain]view plaincopy 
    
 hduser@namenode:~$ hadoop-daemon.sh --config $HADOOP_CONF_DIR --script hdfs start namenode  
 starting namenode, logging to /usr/local/hadoop/logs/hadoop-hduser-namenode-namenode.out

然后分别到每一个datanode server上执行命令启动datanode service

[plain]view plaincopy 
    
 hduser@datanode1:~$ hadoop-daemon.sh --config $HADOOP_CONF_DIR --script hdfs start datanode  
 starting datanode, logging to /usr/local/hadoop/logs/hadoop-hduser-datanode-datanode1.out

[plain]view plaincopy 
    
 hduser@datanode2:~$ hadoop-daemon.sh --config $HADOOP_CONF_DIR --script hdfs start datanode  
 starting datanode, logging to /usr/local/hadoop/logs/hadoop-hduser-datanode-datanode2.out

[plain]view plaincopy 
    
 hduser@datanode3:~$ hadoop-daemon.sh --config $HADOOP_CONF_DIR --script hdfs start datanode  
 starting datanode, logging to /usr/local/hadoop/logs/hadoop-hduser-datanode-datanode3.out