目录
一、Hadoop入门
内容:
1、Hadoop概述
1.1 Hadoop是什么
1.2 Hadoop发展历史
1.3 Hadoop三大发行版本(了解)
1.4 Hadoop的优势
1.5 Hadoop1.x、2.x、3.x区别
2、Hadoop组成
2.1 HDFS架构概述
Hadoop Distributed File System,简称HDFS,是一个分布式文件系统
示意图:
2.2 YARN架构概述
Yet Another Resource Negotiator简称YARN,另一种资源协调者,是Hadoop的资源管理器
2.3 MapReduce架构概述
MapReduce将计算过程分为两个阶段:Map和Reduce
1、Map阶段并行处理输入数据(分工给多个服务器)
2、Reduce阶段对Map结果进行汇总
2.4 HDFS、YARN、MapReduce三者关系
2.5 大数据技术生态体系
2.6 推荐系统框架图
二、Hadoop(1)——运行模式
1、本地运行模式
注意:
1、每一步输入查看路径时候不要按回车,要使用table键
2、这里一定要指明输出路径,且输出路径还不能存在
2、完全分布式运行模式
2.1 编写集群分发脚本xsync
1、scp安全拷贝
以下几种方法都可以
方法1:在102中从102拷贝到103
方法2:在103中从102拷贝到103
方法3:在103中从102拷贝到104
2、ysync远程同步工具
当修改了一个文件时,同步只更改该文件,而拷贝要整个文件进行复制拷贝
3、xsync集群分发脚本
/home/atguigu/bin目录下的文件是全局环境变量,因此可以在任何地方声明
dirname $file可以获取父目录
-P防止读取到软连接的目录
ssh可以远程连接,比如可以在102转换到103,-p可以实现覆盖
2.2 SSH无密登陆配置
免密登录原理
2.4 集群配置
1、集群部署的规划
2、配置文件说明
3、配置集群
4、5 分发配置文件及查看分发情况
2.5 群起集群
注意:要在103上启动ResourceManager
1、实践可以看出来,存储路径就在data目录下
2、关闭yarn等使用kill 进程号
2.6 配置历史服务器
为了查看程序的历史运行情况,需要配置以下历史服务器,具体配置步骤如下:
2.7 日志聚集功能配置
在102中使用mapred --daemon stop historyserver可以停止历史服务器
在hadoop103中使用sbin/stop-yarn.sh可以停止yarn
2.8 集群启动/停止方式总结
可以kill 进程去停止
2.9 两个常用的脚本
2.10 面试题(关于端口号和配置文件)
2.11 集群时间同步
我们的虚拟机联网了,因此不用打开
3、常见错误及解决方案
附上HDFS和YARN的图