- 博客(10)
- 收藏
- 关注
转载 【MapReduce】超大集群的简单数据处理 part7
<br /> 7 相关工作<br /> 很多系统都提供了严格的编程模式,并且通过对编程的严格限制来实现自动的并行计算。例如,一个结合函数可以在一个N个元素的所有前缀上进行计算,并且使用并发前缀计算,会在在N个并发节点上会耗费log N的时间[6,9,13]。MapReduce是这些模式下的,一个我们基于超大系统的现实经验的一个简化和精炼。并且,我们还提供了基于上千台处理器的容错实现。而大部分并发处理系统都只在小规模的尺度上实现,并且机器的容错还是程序员来操心的。<br />Bulk Synchronous
2010-08-07 16:48:00
1048
转载 【MapReduce】超大集群的简单数据处理 part6
<br /> 6 经验<br />我们在2003年1月写了第一个版本的MapReduce函数库,并且在2003年8月作了显著的增强,包括了本地优化,worker机器之间的动态负载均衡等等。自那以后,MapReduce函数库就广泛用于我们日常处理的问题。它现在在Google内部各个领域内广泛应用,包括:<br /> <br />。大尺度的计算机学习问题。<br />。Google News和Froogle产品的集群问题。<br />。从公众查询产品(比如Google的Zeitgeist)的报告中抽取数据。<b
2010-08-07 16:47:00
579
转载 【MapReduce】超大集群的简单数据处理 part5
<br /> 5 性能<br />在本节,我们用在一个大型集群上运行的两个计算来衡量MapReduce的性能。一个计算用来在一个大概1TB的数据中查找特定的匹配串。另一个计算排序大概1TB的数据。<br />这两个程序代表了大量的用MapReduce实现的真实的程序的主要类型-一类是对数据进行洗牌,另一类是从海量数据集中抽取少部分的关心的数据。5.1 集群配置<br /> <br />所有这些程序都是运行在一个大约有1800台机器的集群上。每台机器配置2个2G Intel Xeon支持超线程的处理器,4GB
2010-08-07 16:45:00
631
转载 【MapReduce】超大集群的简单数据处理 part4
4 技巧虽然简单写map和reduce函数实现基本功能就已经对大部分需要都足够了,我们还是开发了一些有用的扩展,这些在本节详细描述。 4.1 分区函数MapReduce的使用者通过指定(R)来给出reduce 任务/输出文件的数量。他们处理的数据在这些任务上通过对中间结果key得分区函数来进行分区。缺省的分区函数时使用hash函数(例如hash(key)mod R)。这一般就可以得到分散均匀的分区。不过,在某些情况下,对key用其他的函数进行分区可能更有用。比如,某些情况下key是URL,那么我们希望所有
2010-08-07 16:39:00
759
转载 【MapReduce】超大集群的简单数据处理 part3
<br /> 3.2 Master的数据结构<br /> <br />master需要保存一定的数据结构。对于每一个map和reduce任务来说,都需要保存它的状态(idle,in-progress或者completed),并且识别不同的worker机器(对于非idel的任务状态)。<br />master是一个由map任务产生的中间区域文件位置信息到reduce任务的一个管道。因此,对于每一个完成得map任务,master保存下来这个map任务产生的R中间区域文件信息的位置和大小。对于这个位置和大小信息是
2010-08-07 16:38:00
762
转载 【MapReduce】超大集群的简单数据处理 part2
3 实现MapReduce接口可以有很多种不同的实现。应当根据不同的环境选择不同的实现。比如,一个实现可以适用于小型的共享内存的机器,另一个实现可能是基于大型NUMA多处理器系统,还可能有为大规模计算机集群的实现。本届描述了Google广泛使用的计算环境:用交换机网络[4]连接的,由普通PC构成的超大集群。在我们的环境里:(1) 每个节点通常是双x86处理器,运行Linux,每台机器2-4GB内存。(2) 使用的网络设备都是常用的。一般在节点上使用的是100M/或者千M网络,一般情况下都用
2010-08-07 16:35:00
554
转载 【MapReduce】超大集群的简单数据处理 part1
<br />收件人:<br />发件人:崮山路上走9遍<br />抄送: <br />日期: 2005-08-05<br />关于: MapReduce: Simplified Data Processing on Large Clusters<br />Jeffrey Dean Sanjay Ghemawat<br />jeff@google.com , sanjay@google.com<br />Google , Inc.摘要<br />MapReduce是一个编程模式,它是与处理/产生海量数
2010-08-07 16:32:00
663
转载 免费的晚餐--Google技术学习
作者:江南白衣,原文出处: http://blog.youkuaiyun.com/calvinxiu/archive/2007/01/31/1498597.aspx,转载请保留出处。 如果说Google的搜索引擎是免费的早餐,Gmail们是免费的午餐的话, http://labs.google.com/papers/ 就是Google给开发人员们的一份免费的晚餐。 不过,咋看着一桌饭菜可能不知道从哪吃起,在自己不熟悉的领域啃英文也不是一件愉快的事情。一、一份PPT与四份中文翻译 幸好,有一位面
2010-08-07 16:14:00
551
原创 工作第一周
<br />本周是入职第一周,熟悉了公司主要产品后,留下的除了知识就是对我司软件工程师们的钦佩。优秀的架构,让我这样一个新人可以非常轻松地安装部署整个分布式环境,并且使用并不熟练的JAVA语言写出了分布式应用程序。<br /> <br />接下来的日子肯定是不断地学习,不断地看到新的概念、理论、算法,我会在此记录,作为伟大思想的一个传播者,呵呵!(同时也努力成为一个伟大思想的缔造者!)
2010-08-06 23:59:00
408
原创 孙鑫Java视频教程(全12CD)
写了5年的C语言,最近由于工作关系,需要快速掌握JAVA,多亏孙鑫老师的视频,让我从入门到“精通”,推荐JAVA新人学习。特点:1、覆盖面全,讲解结合例子内容实在,看10课的介绍就知道2、如果有面向对象的基础,学起来更快3、附带PPT,可以方便摘录其中内容形成自己的学习笔记...http://www.sunxin.org/video/java.htm
2010-08-01 12:10:00
3870
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人