
大数据
chenbinqq
这个作者很懒,什么都没留下…
展开
-
MapReduce研究
MapReduce研究报告 1 MapReduce简介在过去的数年里,Google的许多员工实现了很多基于特殊应用的计算,用来处理海量的原始数据,比如文档爬虫、Web请求日志等。为了计算各种类型的数据,比如倒排索引,Web文档的图结构的各种表示,每天被请求数量最多的搜索集合等等。这样的计算在概念上很容易理解,但是,输入的数据量极大,只有计算被分布在成百上千的机器上才能在可转载 2014-03-11 19:29:35 · 1033 阅读 · 0 评论 -
大数据框架 Hadoop 和 Spark 的异同
谈到大数据,相信大家对Hadoop和Apache Spark这两个名字并不陌生。但我们往往对它们的理解只是提留在字面上,并没有对它们进行深入的思考,下面不妨跟我一块看下它们究竟有什么异同。解决问题的层面不一样 首先,Hadoop和Apache Spark两者都是大数据框架,但是各自存在的目的不尽相同。Hadoop实质上更多是一个分布式数据基础设施: 它将巨大的数据集分派转载 2016-08-25 18:22:37 · 464 阅读 · 0 评论