大数据存储与计算框架-优快云博客

hdfs的架构设计

HDFS具有主/从结构。HDFS集群由单个NameNode，和多个DataNode构成
Client，客户端Client代表用户与NameNode和DataNode交互来访问整个文件系统的对象
NameNode，HDFS的元数据管理者，记录文件是如何分割成数据块的以及它们分别存储在集群中的那些数据节点上
DataNode，文件系统的工作节点，根据客户端或者NameNode发送的指令，负责数据块的读写和检索操作，通过心跳机制定期向NameNode发送它们的存储块列表

hdfs的读操作

hdfs的写操作

Client向NameNode发送写数据请求后，寻找可以写入的数据块block信息的机器位置
- 文件过大，写入会分成很多个block数据块的，实际上是通过一个block一个block的申请
- 默认副本是3个，同机架一个，不同机架存储一个，每次请求后返回一个block的对应的3个副本的block的存放位置
client获取到对应的block数据块所处的DataNode节点位置后，Client开始写操作。
- 先写入第一个DataNode，以数据包package的方式逐个发送和接收
待所有的数据块block均写完后，Client接收到全部写完的ack答复，告诉NameNode数据已写完，Client关闭socket流。DataNode也会向NameNode报告新增block数据块的信息

MapReduce的运行流程

首先在pre-map阶段对数据源进行分片，然后进入到map阶段，把他们分成kv形式的数据，然后会进入portition把具有相同key的分到一个组中，然后进行排序，聚合，shuffle阶段会把一个区的数据拿在一起，进行合并然后排序，然后进入到reduce对具有相同key的进行合并然后输出

yarn的架构设计

是双层调度模型
Client：作为用户编程的接口，与ResourceManager交互
ResourceManager：负责集群资源的统一管理和调度
NodeManager：处理来自RM、AM的命令，负责单节点资源的管理和使用
ApplicationMaster：负责应用程序的管理、为应用程序/作业向RM申请资源(Container)，并分配给内部任务、与NodeManager通信以启动、停止任务
Container：对任务运行环境的抽象

yarn的运行流程

用户向YARN中提交应用程序/作业
RM为作业分配第一个Container，并与对应的NodeManager通信，要求它在这个Container中启动该作业的AM
NodeManager启动一个Container运行ApplicationMaster
ApplicationMaster首先向ResourceManager注册，这样用户可以直接通过ResourceManager查询该作业的运行状态；然后它将为各个任务申请资源并监控任务的运行状态。
一旦ApplicationMaster申请到资源后，便与对应的NodeManager通信，要求它启动任务
NodeManager执行ApplicationMaster发送的命令，启动Container任务
各个Container通过RPC向ApplicationMaster汇报自己的状态和进度，以让ApplicationMaster随时掌握各个任务的运行状态，从而可以在任务失败时重新启动任务
作业完成后，ApplicationMaster向ResourceManager申请注销并关闭自己

数据仓库的架构设计

Hive的架构设计

hive是处于应用层，分为UI层和核心层两层
- Hive CLI：命令行交互模式
- Hive Client 客户端(编程语言操控)
- WebUI：是指可通过浏览器访问Hive
Driver，这是一个驱动器，类似于jdbc驱动，衔接UI和内核的解析、优化、执行器的桥梁
- SQL Parser：sql解析器，解析sql
- Query Optimizer：优化查询语句的
- Excution：执行器
MetaStore：元数据库，Hive将元数据存储在数据库中
Hiveserver2：是将Driver和Client进行了一个解耦,因为HiveClient是程序驱动的,情况很复杂,所以单独抽离了这一层

Hive的运行流程

Hbase的读写流程