
大数据
抓哇小王子
痛饮酒,熟读离骚,方可为名仕
展开
-
Spark:一个高效的分布式计算系统
概述 什么是Spark Spark是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用的并行计算框架,Spark基于map reduce算法实现的分布式计算,拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是Job中间输出和结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习转载 2015-01-13 10:54:15 · 456 阅读 · 0 评论 -
Storm实时计算:流操作入门编程实践
Storm是一个分布式是实时计算系统,它设计了一种对流和计算的抽象,概念比较简单,实际编程开发起来相对容易。下面,简单介绍编程实践过程中需要理解的Storm中的几个概念: Topology Storm中Topology的概念类似于Hadoop中的MapReduce Job,是一个用来编排、容纳一组计算逻辑组件(Spout、Bolt)的对象(Hadoop MapReduce中一个Jo转载 2015-03-13 09:48:06 · 1372 阅读 · 0 评论