
Hadoop
laigood
自学能力强
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Data-Intensive Text Processing with MapReduce第三章(2)-MapReduce算法设计-3.1局部聚集
3.1本地聚集 在数据密集的分布式处理环境中,从产生它们的进程到最后消费它们的进程,中间结果的交互是同步中重要的一个方面。在一个集群环境中,除了令人尴尬的并行问题,其它都必须通过网络传输数据。此外,在Hadoop,中间结果是先写到本地磁盘然后再用网络发送出去。因为网络和磁盘因素相翻译 2011-07-22 22:47:02 · 3145 阅读 · 0 评论 -
Data-Intensive Text Processing with MapReduce第三章(6)-MapReduce算法设计-3.5相关连接(RELATIONAL JOINS)
3.5相关连接(RELATIONAL JOINS) Hadoop的一个流行应用领域是数据仓库。在一个企业级的环境中,一个数据仓库作为大量数据的存储地点,存储着从销售交易到商品清单几乎所有的信息。一般来说这些数据都是相关的,但是随着数据的日益增长,数据仓库被用来像存储无结构数据那样翻译 2011-07-23 10:01:15 · 1699 阅读 · 1 评论 -
Data-Intensive Text Processing with MapReduce第三章(4)-MapReduce算法设计-3.3计算相对频率
3.3计算相对频率 让我们在之前讲到的pairs和stripes算法的基础上继续在大型数据集上构建重现矩阵M。回忆在这个大的n×n矩阵中华,当n=|V|(词典大小),元素mij包含单词wi与wj在具体语境下共同出现的次数。无约束的计数的缺点是它没有考虑到实际上有些词会比其它词更加翻译 2011-07-23 09:23:19 · 2318 阅读 · 6 评论 -
Data-Intensive Text Processing with MapReduce第三章(5)-MapReduce算法设计-3.4 二次排序
3.4 二次排序MapReduce在清洗(shuffle)和排序(sort)阶段用键来为中间键值对排序,如果reducer中的计算依赖于排序顺序的话就非常简单(即之前章节说到的顺序反转模式)。然而,如果除了用键排序之外,我们也需要用值来排序呢?Google的MapReduce实现翻译 2011-07-23 09:31:51 · 2057 阅读 · 0 评论 -
Data-Intensive Text Processing with MapReduce第三章(1)-MapReduce算法设计-简介
大量高效的MapReduce程序因为它简单的编写方法而产生:除了准备输入数据之外,程序员只需要实现mapper和ruducer接口,或加上combiner和partitioner。所有其他方面的执行都透明地控制在由一个节点到上千个节点组成的,数据级别达到GB到PB级别的集群的执行翻译 2011-07-22 21:55:04 · 2034 阅读 · 0 评论 -
Data-Intensive Text Processing with MapReduce第三章(3)-MapReduce算法设计-3.2 PAIRS(对)和STRIPES(条纹)
3.2 PAIRS(对)和STRIPES(条纹) 在MapReduce程序中同步的一个普遍做法是通过构建复杂的键和值这样一个途径来使数据自然地适应执行框架。我们在之前的章节中涉及到这个技术,即把部分总数和计数“打包”成一个复合值(例如pair),依次从mapper传到combin翻译 2011-07-23 08:47:22 · 2504 阅读 · 0 评论 -
Data-Intensive Text Processing with MapReduce第三章(7)-3.6总结
这章提供一个设计MapReduce算法的指导。特别地,对于常见问题我们展示了很多设计模式来解决。总的来说,它们是: “In-mapper combining”(map内合并),combiner函数被移到了mapper里面,mapper通过多个输入记录聚集部分结果,然后只有在局部聚翻译 2011-07-23 10:21:40 · 1636 阅读 · 0 评论 -
分布式搜索方案选型之四:Solr+Katta
一个叫katta的开源项目进入我的视线,它是一个分布式索引建立和管理工具,底层是hadoop的hdfs分布式文件系统,hadoop是当今云计算的热门使用项目,由apatch开源是一个海量数据的处理和存储方案,它的主要核心就是它的hdfs分布式文件存储系统和mapreduce算法,它们分别是google论文中的gfs和mapreduce的开源实现。目前大公司的云计算平台基本上都是基于它来搭建的。因为原创 2012-03-14 21:33:04 · 7992 阅读 · 4 评论