Hadoop速成大法（实践）

最新推荐文章于 2025-05-03 06:00:00 发布

原创

最新推荐文章于 2025-05-03 06:00:00 发布 · 701 阅读

6 ·

CC 4.0 BY-SA版权

本文详细介绍了在Windows环境下配置Hadoop伪分布式的过程，包括环境变量设置、配置文件修改、HDFS格式化及服务启动。接着，讲解了如何在Eclipse中进行MapReduce项目开发，包括WordCount程序的Mapper和Reducer实现。最后，提供了测试HDFS和运行MapReduce作业的方法。

实践：

1. 配置安装伪分布式（Windows）

【1】Path环境变量指定：%HADOOP_HOME%/bin
【2】设置\etc\hadoop\core-site.xml，设置dfs文件系统访问的访问通信端口

	<property>
       <name>fs.defaultFS</name>
       <value>hdfs://localhost:9000</value>
    </property>

【3】设置\etc\hadoop\hdfs-site.xml，设置hdfs文件元信息存放的地方，replication是文件元文件的副本数量

  <property>
    <name>dfs.replication</name>
    <value>1</value>
  </property>
  <property>
    <name>dfs.namenode.name.dir</name>
    <!--在windows上配置一定要/D:/这样写-->
    <value>/D:/win_hadoop_data/namenode</value>
  </property>
  <property>
    <name>dfs.datanode.data.dir</name>
    <value>/D:/win_hadoop_data/datanode</value>
  </property>

【4】设置\etc\hadoop\mapred-site.xml，设置JobTracker，mr使用的工具是什么

  <property>
    <name>mapreduce.framework.name</name>
    <value>yarn</value>
  </property>
  <property>
  	<!--假如在Linux上实机需要写地址，但我们是伪分布式就不需要写下面的了-->
    <name>mapred.job.tracker</name> 
    <value>master:49001</value>
  </property>