
Hadoop & Spark
首先二者均不是属于产品类别,理解为生态系统或者也有人将其称为“大数据通用处理平台”也是可以的,这种称呼也更为准确
Hadoop是由Apache基金会所开发的分布式系统基础架构
Hadoop主要包括:
Hadoop分布式文件系统:一个分布式的、面向块的、不可更新的、高度伸缩性的、可运行在集群中普通硬盘上的文件系统
MapReduce框架:一个基本的在集群中一组标准硬件上执行的分布式计算框架
YARN :Hadoop生态集群中默认的资源管理器
Hive :构建在MapReduce框架之上的类SQL查询引擎