集群搭建参考:
Hadoop集群安装和搭建(全面超详细的过程)_hadoop集群搭建-优快云博客
补充:1、确保你的SSH配置允许密钥认证。检查/etc/ssh/sshd_config
文件,确认以下设置:
PubkeyAuthentication yes
AuthorizedKeysFile .ssh/authorized_keys
2、(该问题不知道如何正常解决,这是尝试出来的方式)复制公钥文件时带上用户,比如ssh-copy-id iamikun@hadoop1。因为直接使用ssh-copy-id hadoop1发现只有root用户可以免密,而hadoop不希望用户使用root用户进行操作。
注意:这样操作之后又会出现权限问题,需要将文件修改为该用户的组并且修改权限。
3、对于3.0以后的版本Hadoop的HDFS RPC的默认端口是9870(core-site.xml中的端口)
NameNode Web UI的默认端口是9870
Secondary NameNode(现在称为 Checkpoint Node)的默认端口是8012(
hdfs-site.xml中的端口)
4、slaves更改为了workers
5、配置各种xml文件时记得更改为自己的主机名
一、基础知识
1. HDFS架构
NameNode(nn):存储文件的元数据,如文件名,文件目录结构,文件属性,以及每个文件的块列表和块所在的DaraNode
DataNode(dn),在本地文件系统存储文件块数据,以及块数据的校验和。
Secondary NameNode(2nn):每隔一段时间对NameNode元数据备份
2. YARN架构
Yet Another Resource Negotiator,另一种资源协调者,属于Hadoop的资源管理器
ResourceManager(RM):整个集群资源(内存、CPU等)管理者
NodeManager(NM):当个节点服务器资源的管理者
ApplicationManager(AM):单个任务运行的管理者
Container:容器,相当于一台独立的服务器,里面封装了任务运行所需要的资源,如内存、cpu,磁盘、网络等。
3. MapReduce
负责集群的计算
Map:把待分析数据分发给各个服务器
Reduce:把结果整合并报告出来
4. 大数据生态系统
二、使用方式
1. 启动与关闭
可以使用start-all.sh命令启动Hadoop的所有进程:
[root@hadoop0 hadoop]# start-all.sh
如果需要停止Hadoop的所有进程,则使用stop-all.sh。
三、问题记录:
问题:hdfs dfs -mkdir input报错`mkdir`:No such file or directory:
解决:加一个 -p参数