Hadoop 集群环境搭建续

本文详细介绍了Hadoop集群环境的规划与搭建过程,包括CentOS节点配置、免密登录设置、核心配置文件调整及HDFS与YARN服务启动。并通过WordCount程序演示了数据处理流程,从文件上传到MapReduce任务执行,最后展示结果查看方法。
集群环境规划
centos102centos103centos104
NameNodeResourceManagerSecondaryNameNode
DataNodeDataNodeDataNode
NodeManagerNodeManagerNodeManager
配置免密登录

生成密钥对ssh-keygen -t rsa
一路回车即可

将本机公钥拷贝到目标机器 ssh-copy-id 目标机器hostname
如果本机没有ssh-copy-id命令,需要自己安装。
安装ssh-copy-id(https://blog.youkuaiyun.com/u014609263/article/details/89448245)
sudo yum -y install openssh-clients

在三台机器上都执行以下4条指令,配置三台机器间的免密登录

ssh-keygen -t rsa
ssh-copy-id centos102
ssh-copy-id centos103
ssh-copy-id centos104

core-site.xml

<configuration>
    <property>
        <name>fs.defaultFS</name>
        <value>hdfs://centos102:9000</value>
    </property>
    <property>
        <name>hadoop.tmp.dir</name>
        <value>/opt/moudle/hadoop-2.7.3/data</value>
    </property>

</configuration>

hdfs-site.xml

<configuration>
    <!-- 指定HDFS副本数量 -->
    <property>
        <name>dfs.replication</name>
        <value>3</value>
    </property>

    <!-- 指定SecondaryNameNode -->
    <property>
        <name>dfs.namenode.secondary.http-address</name>
        <value>centos104:50090</value>
    </property>
</configuration>

mapred-site.xml

<configuration>
    <property>
        <name>mapreduce.framework.name</name>
        <value>yarn</value>
    </property>
</configuration>

yarn-site.xml

<configuration>
    <property>
        <name>yarn.resourcemanager.hostname</name>
        <value>centos103</value>
    </property>
    <property>
        <name>yarn.nodemanager.aux-services</name>
        <value>mapreduce_shuffle</value>
    </property>
</configuration>

etc/hadoop/slaves

centos102
centos103
centos104

同步以上配置到其他机器
xsync /opt/moudle/hadoop-2.7.3/etc/

在NameNode机器centos102 上执行格式化hdfs namenode -format
在centos102上执行start-dfs.sh
在centos103上执行start-yarn.sh

通过jps 命令查看

[hadoop@centos102 ~]$ jps
25552 NodeManager
24389 DataNode
27803 Jps
24190 NameNode

[hadoop@centos103 ~]$ jps
24978 ResourceManager
25130 NodeManager
27996 Jps
23980 DataNode

[hadoop@centos104 ~]$ jps
28049 Jps
23991 DataNode
25081 NodeManager
24233 SecondaryNameNode

访问 HDFS http://192.168.56.102:50070/
访问 YARN http://192.168.56.103:8088/

执行WordCount程序,在NameNode机器centos102上操作。
待统计文件wc.txt 内容如下,一行使用tab隔开

[hadoop@centos102 ~]$ cat wc.txt 
helloworld      test
hadoop
centos
hdfs
yarn
namenode        datanode

创建目录 hdfs dfs -mkdir /wcinput

上传待统计的文件wc.txt
hdfs dfs -put wc.txt /wcinput/

执行MapReduce程序
hadoop jar /opt/moudle/hadoop-2.7.3/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.3.jar wordcount /wcinput/ /wcoutput

查看执行结果
hdfs dfs -cat /wcoutput/*

[hadoop@centos102 ~]$ hdfs dfs -cat /wcoutput/*
centos  1
datanode        1
hadoop  1
hdfs    1
helloworld      1
namenode        1
test    1
yarn    1
根据原作 https://pan.quark.cn/s/459657bcfd45 的源码改编 Classic-ML-Methods-Algo 引言 建立这个项目,是为了梳理和总结传统机器学习(Machine Learning)方法(methods)或者算法(algo),和各位同仁相互学习交流. 现在的深度学习本质上来自于传统的神经网络模型,很大程度上是传统机器学习的延,同时也在不少时候需要结合传统方法来实现. 任何机器学习方法基本的流程结构都是通用的;使用的评价方法也基本通用;使用的一些数学知识也是通用的. 本文在梳理传统机器学习方法算法的同时也会顺便补充这些流程,数学上的知识以供参考. 机器学习 机器学习是人工智能(Artificial Intelligence)的一个分支,也是实现人工智能最重要的手段.区别于传统的基于规则(rule-based)的算法,机器学习可以从数据中获取知识,从而实现规定的任务[Ian Goodfellow and Yoshua Bengio and Aaron Courville的Deep Learning].这些知识可以分为四种: 总结(summarization) 预测(prediction) 估计(estimation) 假想验证(hypothesis testing) 机器学习主要关心的是预测[Varian在Big Data : New Tricks for Econometrics],预测的可以是连性的输出变量,分类,聚类或者物品之间的有趣关联. 机器学习分类 根据数据配置(setting,是否有标签,可以是连的也可以是离散的)和任务目标,我们可以将机器学习方法分为四种: 无监督(unsupervised) 训练数据没有给定...
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值