**
浅读3篇Google相关论文观后感
**
第一次读到这种论文使我震撼。数不清的学术性词汇,如此之长的篇幅。虽然觉得学术性论文枯燥无味,但还是坚持看完了。读完之后的第一感觉就是“太过于专业”,太多太多未知领域,为此还不停地去百度一个个词汇具体指什么…
第一篇讲的是GFS(谷歌分布式文件系统),分布式文件系统(Distributed File System)是指文件系统管理的物理存储资源不一定直接连接在本地节点上,而是通过计算机网络与节点相连。分布式文件系统的设计基于客户机/服务器模式。一个典型的网络可能包括多个供多用户访问的服务器。另外,对等特性允许一些系统扮演客户机和服务器的双重角色。GFS基于普通的分布式文件系统,逐步发展延伸,完全满足了我们对存储的需求。GFS作为存储平台已经被广泛部署在Google内部,存储我们的服务产生的数据,同时还用于那些需要大规模数据集的研究和开发工作。他们认为有些组件失效是常态事件。因为访问的人数规模大,数据交互量大,任何给定时间都有可能发生某些组件无法工作,比如程序bug,人为失误等等。所以,持续的侦察,错误侦测,灾难冗余以及自动恢复的机制必须集成在GFS中。
感觉设计这种系统好难,论文里提到设计极具挑战性。文件系统的读有两种操作:大规模流式读取和小规模的随机读取。一个是通常读取数百KB的数据,一次读取1MB更为常见;另一种是在文件某个随机位置读取几个KB数据。系统的工作负载还包括大规模的,顺序的,数据追加的写操作。不是仅限于读取,写入也是一种需要掌握的技术。同事需要高性能的稳定网络带宽来维持高速率,大批量的数据处理。GFS提供的API接口函数,使文件以分层目录的形式组织,用路径名来标识,支持常用的操作比如创建文件。GFS额外提供了快照和记录追加的操作。
接下来的构架实在难懂,master节点,chunk服务器,甚至Linux机器、文件(我只知道有Linux系统),还有几张框架图,即便4级分数不错但还是有严重的阅读障碍!第一次听说“元数据”这个名词,特意去查了一下,搜狗给的解释指出了他的工作:用来支持如指示存储位置,历史数据,资源查找,文件记录等等。元数据在master服务器中使其拥有非常快的操作速度。在GFS集群中,读取速率高于写入速率,最高峰值可以达到1.3GB/s!
和其他的大型分布式文件相比,GFS是把文件分部存储到不同的服务器上,这是为了提高整体性能以及灾难冗余的能力。不过有个缺点就是要比xFS或者Swift占用更多的裸存储空间。
GFS 成功的实现了我们对存储的需求,在 Google 内部,无论是作为研究和开发的存储平台,还是作为生产系统的数据处理平台,都得到了广泛的应用。它是我们持续创新和处理整个 WEB 范围内的难题的一个重要工具。
第二篇讲的是Google BigTable,一个分布式的结构化数据存储系统,被用来处理海量数据。虽然Google接触的少,但是Google里面的web索引、Google earth、Google finance等等项目都在使用BigTable存储数据!虽然那些应用对BigTable提出的要求差异非常大,但是BigTable还是成功的提供了一个灵活的、高性能的解决方案。不得不佩服BigTable!论文描述了BigTable提供的简单的数据模型,利用模型用户可以动态的控制数据的分布和格式,文章还描述BigTable的设计和实现。
BigTable已在60个Google的产品和项目上的到了应用!BigTable是一个稀疏的,分布式的,持久化存储的多维度排序Map。随着时间的推移,他们可以根据自己的系统对资源的需求增加情况,通过简单的增加机器,扩展系统的承载能力。
最后一篇讲的Google MapReduce,MapReduce是一个编程模型,也是一个处理和生成超大数据集的算法模型的相关实现。过去的好多年里,许多程序员为了处理海量的原始数据,已经实现了数以百计的,专用的计算方法,比如文档抓取(类似网络爬虫的程序)。我对爬虫略有了解,目的按要求过去万维网信息。MapReduce 编程模型在 Google 内部成功应用于多个领域。我们把这种成功归结为几个方面:首先,由于MapReduce 封装了并行处理、容错处理、数据本地化优化、负载均衡等等技术难点的细节,这使得 MapReduce库易于使用。我们也从 MapReduce 开发过程中学到了不少东西。首先,约束编程模式使得并行和分布式计算非常容易,也易于构造容错的计算环境;其次,网络带宽是稀有资源。大量的系统优化是针对减少网络传输量为目的的:本地优化策略使大量的数据从本地磁盘读取,中间文件写入本地磁盘、并且只写一份中间文件也节约了网络带宽;第三,多次执行相同的任务可以减少性能缓慢的机器带来的负面影响(alex 注:即硬件配置的不平衡),同时解决了由于机器失效导致的数据丢失问题。
三篇论文紧密联系,从文件管理到数据处理再到数据算法,在文字向我们展示了Google可以简单的操控大数据,为自己为网民提供便捷。随着时间的推移,这些系统模型会逐步完善加强,功能变得更加强大,速度只会也来越快!
整个世界可以说是由数据组成,所以,我们是应该好好学习数据,借大数据看向未来。我们离不开数据,大数据或许可以改变未来!!