hadoop是apache的一个项目,由HDFS,MapReduce,HBase,Hive和ZooKeeper等成员组成。HDFS和MapReduce是最基本得2个成员。
源码地址:http://svn.apache.org/repos/asf/hadoop
以下是一个简单的hadoop-site.xml
的配置:
<?xml version="1.0"?> <?xml-stylesheet type="text/xsl" href="configuration.xsl"?> <!-- Put site-specific property overrides in this file. --> <configuration> <property> <name>fs.default.name</name>//你的namenode的配置,机器名加端口 <value>hdfs://10.2.224.46:54310/</value> </property> <property> <name>mapred.job.tracker</name>//你的JobTracker的配置,机器名加端口 <value>hdfs://10.2.224.46:54311/</value> </property> <property> <name>dfs.replication</name>//数据需要备份的数量,默认是三 <value>1</value> </property> <property> <name>hadoop.tmp.dir</name>//Hadoop的默认临时路径,这个最好配置,如果在新增节点或者其他情况下莫名其妙的DataNode启动不了,就删除此文件中的tmp目录即可。不过如果删除了NameNode机器的此目录,那么就需要重新执行NameNode格式化的命令。 <value>/home/wenchu/hadoop/tmp/</value> </property> <property> <name>mapred.child.java.opts</name>//java虚拟机的一些参数可以参照配置 <value>-Xmx512m</value> </property> <property> <name>dfs.block.size</name>//block的大小,单位字节,后面会提到用处,必须是512的倍数,因为采用crc作文件完整性校验,默认配置512是checksum的最小单元。 <value>5120000</value> <description>The default block size for new files.</description> </property> </configuration>