目前应用比较广泛的大数据架构平台有三个:Hadoop架构平台、Spark架构平台、Storm 架构平台。Hadoop是一个“开源+分布式存储+分布式计算平台”,实现了MapReduce的思 想,将数据切片计算来处理大量的离线数据,处理的数据必须是已经存放在HDFS上或者类 似Hbase的数据库中,适用于海量数据的离线分析处理。Spark是在Hadoop的基础上进行了 一些架构的改良,Hadoop使用硬盘来存储数据,Spark使用内存来存储数据,可以提供超过 Hadoop100倍的运算速度,由于内存断电后会丢失数据,因此不能处理需要长期保存的数 据。Storm在Hadoop的基础上提供了实时运算的特性,可以实时的处理大数据流,它不进行 数据的收集和存储工作,直接通过网络实时的接受数据并且实时的处理数据,然后直接通过 网络实时的传回结果。
大数据技术架构主要是针对一个集群而言,通过集群才能体现出大数据技术架构的优 势,一个大数据架构平台是多项新技术应用的组合,技术比较全面的架构平台。
1)HDFS(分布式文件系统)是底层应用,统一管理分布在集群上的文件系统,提供了 一个高度容错性和高吞吐量的海量数据存储解决方案。
2)YARN(群集资源管理系统)为上层应用提供统一的资源管理和调度,它的引入为集 群在利用率、资源统一管理和数据共享等方面带来了巨大好处。
3)MapReduce(分布式离线计算框架)采用“分而治之”的思想,把对大规模数据集 的操作,分发给一个主节点管理下的各个分节点共同完成,然后通过整合各个节点的中间结 果,得到最终结果。
4)Tez(DAG计算框架)是基于YARN之上的DAG计算框