【翻译】MapReduce: 大集群上简化的数据处理

MapReduce是一种编程模型,用于在大型集群上简化大规模数据处理。用户定义map和reduce函数,系统自动并行运行,处理数据分片、错误及通信。论文介绍了模型、实现及其在谷歌的应用。

MapReduce: 大集群上简化的数据处理

原文:
MapReduce: Simplified Data Processing on Large Clusters

作者:

Jeffrey Dean and Sanjay Ghemawat
jeff@google.com, sanjay@google.com
Google, Inc.

前言

MapReduce是一种编程模型,和与之相关能处理与生成大量数据的实施手段。用户定义一个 map 的函数,它会处理一对键/值,生成一组中间的键/值。并定义一个 reduce 函数,用来把所有与中间键相同的中间值合并到一起。如本论文所说,很多现实中的任务都可以用这个模型来描述。

使用这种函数式风格写出来的程序,自动就有能够在商品服务器的大型集群中并行运行的能力。运行中的系统会处理好将输入数据分片,在一组服务器上安排程序的运行,解决机器出错的情况,并且管理机器之间的通信问题。这可以让没有任务并发与分布式经验的程序员们能够轻松地使用大型分布式系统的资源。

我们的 MapReduce是在一个大型商品服务器集群上实现的,它的扩展度非常高:通常一个 MapReduce 计算任务会在上千台机器上处理 TB 级别的数据。程序员们觉得这个系统非常好用:成千的 MapReduce 程序被开发出来,并且上千的 MapReduce任务每天都在谷歌的集群上运行着,这个数字还在增加。

1.简介

在过去五年,本文作者与众多谷歌同事开发了成百的,有特定目的计算任务,这些任务都会处理大量的原始数据,比如爬虫抓取来的文档,网络请求的日志等。这些任务被用来计算各种各样的数据,比如反向索引,出网络文档图结构的多种表现,每个主机抓取的文档数目的总结,一组一天内最频繁出现的搜索词,等等。大多数这类计算都在理论上很直观。但是,输入数据通常非常大,并且这些计算必须分布到成百上千台机器上运行,为了在可以接受的时间内完成。如何把计算并行化,将数据分布出去,并且处理出现的错误,为了解决这些问题,将本来很简单的运算变成了大量的复杂的代码。

针对这个复杂性,我们设计出了一个新的抽象,它允许我们描述我们本身想要进行的简单运算,但将杂乱的并行计算,容错,数据分布和负荷均衡的细节这些隐藏到了依赖的包里。我们的抽象是受到了 Lisp以及很多函数式语言里的 map 和 reduce 的启发。我们意识到了,大多数的运算都包含了针对我们的输入文件进行 map 运算,用来得出一组中间的键/值对,然后对所有共享一个键的值进行 reduce 运算,用来把生成的数据正确地合并起来。我们的函数式模型接受用户自定义的 map 和 reduce 运算,使得我们可以将大型的运算很轻松地并行化,并且可以将“重新运行”作为主要的容错机制。

此任务的主要贡献是一个简单并强大的接口,它能让大规模的计算自动有并行化,分布式的功能。我们还提供了这个接口的实现,它可以在大型商品计算机组成的集群上运行,并有很高的性能。

论文第二部分描述了基本的编程模型,并且给出了几个示例。第三部分描述了一个 MapReduce 接口的实现,它是针对我们基于集群计算环境打造的。第四部分描述了本编程模型的几种改动,我们觉得是很有用的。第五部分是我们针对各种任务实现的性能测量。第六部分讲了在谷歌里的 MapReduce 应用,包括了我们以它为基础来重写我们的在线上索引系统的经验。第七部分讨论了相关的和未来的工作。

2.编程模型

成都市作为中国西部地区具有战略地位的核心都市,其人口的空间分布状况对于城市规划、社会经济发展及公共资源配置等研究具有基础性数据价值。本文聚焦于2019年度成都市人口分布的空间数据集,该数据以矢量格式存储,属于地理信息系统中常用的数据交换形式。以下将对数据集内容及其相关技术要点进行系统阐述。 Shapefile 是一种由 Esri 公司提出的开放型地理空间数据格式,用于记录点、线、面等几何要素。该格式通常由一组相互关联的文件构成,主要包括存储几何信息的 SHP 文件、记录属性信息的 DBF 文件、定义坐标系统的 PRJ 文件以及提供快速检索功能的 SHX 文件。 1. **DBF 文件**:该文件以 dBase 表格形式保存与各地理要素相关联的属性信息,例如各区域的人口统计数值、行政区划名称及编码等。这类表格结构便于在各类 GIS 平台中进行查询与编辑。 2. **PRJ 文件**:此文件明确了数据所采用的空间参考系统。本数据集基于 WGS84 地理坐标系,该坐标系在全球范围内广泛应用于定位与空间分析,有助于实现跨区域数据的准确整合。 3. **SHP 文件**:该文件存储成都市各区(县)的几何边界,以多边形要素表示。每个多边形均配有唯一标识符,可与属性表中的相应记录关联,实现空间数据与统计数据的联结。 4. **SHX 文件**:作为形状索引文件,它提升了在大型数据集中定位特定几何对象的效率,支持快速读取与显示。 基于上述数据,可开展以下几类空间分析: - **人口密度评估**:结合各区域面积与对应人口数,计算并比较人口密度,识别高密度与低密度区域。 - **空间集聚识别**:运用热点分析(如 Getis-Ord Gi* 统计)或聚类算法(如 DBSCAN),探测人口在空间上的聚集特征。 - **空间相关性检验**:通过莫兰指数等空间自相关方法,分析人口分布是否呈现显著的空间关联模式。 - **多要素叠加分析**:将人口分布数据与地形、交通网络、环境指标等其他地理图层进行叠加,探究自然与人文因素对人口布局的影响机制。 2019 年成都市人口空间数据集为深入解析城市人口格局、优化国土空间规划及完善公共服务体系提供了重要的数据基础。借助地理信息系统工具,可开展多尺度、多维度的定量分析,从而为城市管理与学术研究提供科学依据。 资源来源于网络分享,仅用于学习交流使用,请勿用于商业,如有侵权请联系我删除!
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值