一、大数据与分布式计算(Distributed Computing)
有了大数据,就需要对其进行处理和分析,分析主要分为五个方面:可视化分析(Analytic Visualization)、数据挖掘算法(Date Mining Algorithms)、预测性分析能力(Predictive Analytic Capabilities)、语义引擎(Semantic Engines)和数据质量管理(Data Quality Management)。
对于如何处理大数据,计算机科学界有两大方向:第一个方向是集中式计算,第二个方向是分布式计算。
大数据的技术基础:MapReduce、Google File System和BigTable
分布式计算最初的技术起源都来自于Google的三篇论文:MapReduce、GFS(Google File System)和BigTable,随后逐步发展成为Hadoop,Spark和Storm三大主流的分布式计算系统。
Yahoo的工程师Doug Cutting和Mike Cafarella在2005年合作开发了分布式计算系统Hadoop。后来,Hadoop被贡献给了Apache基金会,成为了Apache基金会的开源项目。Doug Cutting也成为Apache基金会的主席,主持Hadoop的开发工作。
Hadoop采用MapReduce分布式计算框架,并根据GFS开发了HDFS分布式文件系统,根据BigTable开发了HBase数据存储系统。尽管和Google内部使用的分布式计算系统原理相同,但是Hadoop在运算速度上依然达不到Google论文中的标准。
不过,Hadoop的开源特性使其成为分布式计算系统的事实上的国际标准。Yahoo,Facebook,Amazon以及

本文介绍了大数据处理中的三个重要分布式计算系统——Hadoop、Spark和Storm。Hadoop是基于MapReduce和HDFS的开源项目,适合离线大数据处理;Spark通过内存计算提升了运算速度,适用于快速处理;而Storm则提供了实时计算功能,用于实时大数据处理。随着技术发展,Spark在某些方面已超越Hadoop,而Hadoop的地位受到挑战。
最低0.47元/天 解锁文章
986

被折叠的 条评论
为什么被折叠?



