大数据实验一-优快云博客

本文链接：https://blog.youkuaiyun.com/qq_42500148/article/details/90598713

实验一：搭建伪分布式

1.下载vmware，创建虚拟机，对虚拟机进行设置，记住ip。
2.下载安装xshell，利用虚拟机ip，使用xshell与虚拟机进行连接。
3.下载安装eclipse，并进行环境配置，JDK配置。
安装：

rmp包安装方法
rpm -ivh jdk-8u211-linux-x64.rpm
tar -zxvf jdk-8u211-linux-x64.tar.gz

配置环境变量：

vim /etc/profile

在配置文件租后插入：

export JAVA_HOME=/usr/java/jdk1.8.0_211-amd64
export PATH=$JAVA_HOME/bin:$PATH

使其生效：

source /etc/profile

4.环境配置好以后，在连接上虚拟机的xshell中进行如下操作：
（1）修改四个配置文件
①core-site.xml

<property>
        <name>fs.defaultFS</name>
        <value>hdfs://bigdata128:9000</value>
</property>
<property>
        <name>hadoop.tmp.dir</name>
        <value>/opt/module/hadoop-2.7.3/tmp</value>
</property>

②mapred-site.xml

先创建这个配置文件 
cp mapred-site.xml.template mapred-site.xml

<property>			 
	  <name>mapreduce.framework.name</name> 
	  <value>yarn</value> 
</property>

③yarn-site.xml

<property>			 
	  <name>yarn.resourcemanager.hostname</name> 
	  <value>bigdata128</value> 
</property>	 	 
<property>	 
	  <name>yarn.nodemanager.aux-services</name> 
	  <value>mapreduce_shuffle</value> 
</property>

④hdfs-site.xml

<property>		 
	     <name>dfs.replication</name>		 
	     <value>1</value>		 
</property>		
<property>
         <name>dfs.namenode.secondary.http-address</name>
         <value>bigdata128:50090</value>
</property>

（2）①修改\etc\hosts配置文件

vi \etc\hosts

注释掉已有内容，添加虚拟机的ip及对应主机名(修改为自己的虚拟机IP和主机名)
注：查询虚拟机的ip ip addr 查询主机名 hostname

②修改\etc\hostname配置文件

 vi  \etc\hostname

添加虚拟机的主机名：

bigdata128

③格式化

hdfs namenode -format

注：如果不是第一次格式化，格式化之前先删除/opt/module/hadoop-2.7.3/下面的tmp、logs两个目录

④启动

start-all.sh

如果启动之前已经启动过，启动之前先停止 stop-all.sh

⑤运行wordcount

上传本地当前路径下的in.txt文件到hdfs的/adir目录下。

hdfs dfs -put in.txt /adir

运行

hadoop jar hadoop-mapreduce-examples-2.7.3.jar wordcount /adir/in.txt output/

在 ip:50070 网页中查看/user/root/output/part-r-00000文件里的词频统计结果。