
大数据
文章平均质量分 77
broze
人生如戏,戏如人生。
努力赚钱养活家人,实现环游世界的梦想。
加油!纽卡!
展开
-
NET版本的MapReduce--Qizmt
原帖地址:http://blog.youkuaiyun.com/sgear/article/details/7195362由Google提出并实现的编程模型,可利用大量机器所组成的集群处理或生成海量数据集。此外,由Yahoo!公司资助的Hadoop项目则是MapReduce的开源实现,在Facebook等大型应用中得到了广泛使用。而现在,MySpace也将其MapReduce框架Qizmt开源了,可用转载 2014-06-11 15:26:10 · 985 阅读 · 0 评论 -
Spark & Shark & Tachyon 简介
原帖地址:http://blog.youkuaiyun.com/lijiajia81/article/details/17080715Spark是一个高效的分布式计算系统,相比Hadoop,它在性能上比Hadoop要高100倍。Spark提供比Hadoop更上层的API,同样的算法在Spark中实现往往只有Hadoop的1/10或者1/100的长度。Shark类似“SQL on Spark转载 2014-06-11 15:30:59 · 2360 阅读 · 0 评论 -
FLUME日志收集
原帖地址:http://www.blogjava.net/paulwong/archive/2013/10/31/405860.html一、FLUME介绍Flume是一个分布式、可靠、和高可用的海量日志聚合的系统,支持在系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方(可定制)的能力。设计目标:(1) 可靠性当节点转载 2014-06-11 15:33:16 · 747 阅读 · 0 评论 -
分布式消息系统Kafka初步
原帖地址:http://www.open-open.com/lib/view/open1354277579741.html终于可以写kafka的文章了,Mina的相关文章我已经做了索引,在我的博客中置顶了,大家可以方便的找到。从这一篇开始分布式消息系统的入门。在我们大量使用分布式数据库、分布式计算集群的时候,是否会遇到这样的一些问题:l 我想分析一下用户行为(pageview转载 2014-06-11 15:39:08 · 542 阅读 · 0 评论 -
Storm介绍
原帖地址:http://blog.youkuaiyun.com/cuiran/article/details/8507896Twitter将Storm正式开源了,这是一个分布式的、容错的实时计算系统,它被托管在GitHub上,遵循 Eclipse Public License 1.0。Storm是由BackType开发的实时处理系统,BackType现在已在Twitter麾下。GitHub上的最新版本转载 2014-06-11 15:19:39 · 556 阅读 · 0 评论 -
数据货币化
在阅读客户的需求时,学到一个新概念,数据货币化,Data monetization。下面是从维基百科摘录的定义,感觉在这个大数据时代,通过各种渠道和传感器收录的数据,如果可以好好挖掘的话,是一个很大的金矿。比如通过分析客户在Online store的浏览习惯,可以智能化的了解客户的需求,以便推荐更合适的产品或服务。Data monetization, a form of monetiz原创 2016-10-27 10:55:11 · 3677 阅读 · 0 评论