官网地址:https://hadoop.apache.org/
1、概念简介
概念解释:Hadoop 是 Apache 旗下的顶级开源项目,具备高可靠、高可扩展、分布式计算的特点。
- 核心组件
HDFS 组件
分布式文件系统(Hadoop Distributed File System)具有高容错、高吞吐、可扩展的特性;
MapReduce 组件
分布式运算框架(Map和Reduce),Map(映射)和Reduce(归约)是它们的主要思想
YARN 组件
Hadoop2.0版本新引入的组件,资源调度系统(Yet Another Resources Negotiator);
核心思想:YARN通过将资源管理和应用程序管理两部分剥离开来,分别由ResourceManager和ApplicationMaster进程来实现。
2、系统架构
Block Replication:默认3副本;
文件块容量:默认128m;
hdfs流程
-
hadoop读
-
Hadoop写
MapReduce原理
架构:yarn管理节点采用主从架构,主节点负责接受客户端请求,从节点实时同步主节点的任务状态信息,zk负责状态监控及主从切换;
hive架构
hive是基于Hadoop的一个数据仓库工具,用来进行数据提取、转化、加载。
hive特性:
1)Hive可以单条/批量数据插入,不支持记录级别的删除(delete)、修改(update)操作。
2)Hive的查询延时较长,因为MapReduce Job的启动过程消耗很长时间,所以不能用在交互查询系统中。
3)Hive不支持事务。
================================ over ========================================