浅读3篇Google相关论文观后感

最新推荐文章于 2022-09-01 10:33:32 发布

我不会C#

最新推荐文章于 2022-09-01 10:33:32 发布

阅读量315

点赞数 1

CC 4.0 BY-SA版权

本文链接：https://blog.youkuaiyun.com/qq_43499614/article/details/89364861

本文深入解析Google的GFS分布式文件系统、BigTable分布式数据存储系统和MapReduce数据处理模型，探讨其在海量数据管理和处理方面的创新与应用。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

浅读3篇Google相关论文观后感

第一次读到这种论文使我震撼。数不清的学术性词汇，如此之长的篇幅。虽然觉得学术性论文枯燥无味，但还是坚持看完了。读完之后的第一感觉就是“太过于专业”，太多太多未知领域，为此还不停地去百度一个个词汇具体指什么…

第一篇讲的是GFS（谷歌分布式文件系统），分布式文件系统（Distributed File System）是指文件系统管理的物理存储资源不一定直接连接在本地节点上，而是通过计算机网络与节点相连。分布式文件系统的设计基于客户机/服务器模式。一个典型的网络可能包括多个供多用户访问的服务器。另外，对等特性允许一些系统扮演客户机和服务器的双重角色。GFS基于普通的分布式文件系统，逐步发展延伸，完全满足了我们对存储的需求。GFS作为存储平台已经被广泛部署在Google内部，存储我们的服务产生的数据，同时还用于那些需要大规模数据集的研究和开发工作。他们认为有些组件失效是常态事件。因为访问的人数规模大，数据交互量大，任何给定时间都有可能发生某些组件无法工作，比如程序bug，人为失误等等。所以，持续的侦察，错误侦测，灾难冗余以及自动恢复的机制必须集成在GFS中。
感觉设计这种系统好难，论文里提到设计极具挑战性。文件系统的读有两种操作：大规模流式读取和小规模的随机读取。一个是通常读取数百KB的数据，一次读取1MB更为常见；另一种是在文件某个随机位置读取几个KB数据。系统的工作负载还包括大规模的，顺序的，数据追加的写操作。不是仅限于读取，写入也是一种需要掌握的技术。同事需要高性能的稳定网络带宽来维持高速率，大批量的数据处理。GFS提供的API接口函数，使文件以分层目录的形式组织，用路径名来标识，支持常用的操作比如创建文件。GFS额外提供了快照和记录追加的操作。
接下来的构架实在难懂，master节点，chunk服务器，甚至Linux机器、文件（我只知道有Linux系统），还有几张框架图，即便4级分数不错但还是有严重的阅读障碍！第一次听说“元数据”这个名词，特意去查了一下，搜狗给的解释指出了他的工作：用来支持如指示存储位置，历史数据，资源查找，文件记录等等。元数据在master服务器中使其拥有非常快的操作速度。在GFS集群中，读取速率高于写入速率，最高峰值可以达到1.3GB/s！
和其他的大型分布式文件相比，GFS是把文件分部存储到不同的服务器上，这是为了提高整体性能以及灾难冗余的能力。不过有个缺点就是要比xFS或者Swift占用更多的裸存储空间。
GFS 成功的实现了我们对存储的需求，在 Google 内部，无论是作为研究和开发的存储平台，还是作为生产系统的数据处理平台，都得到了广泛的应用。它是我们持续创新和处理整个 WEB 范围内的难题的一个重要工具。

第二篇讲的是Google BigTable，一个分布式的结构化数据存储系统，被用来处理海量数据。虽然Google接触的少，但是Google里面的web索引、Google earth、Google finance等等项目都在使用BigTable存储数据！虽然那些应用对BigTable提出的要求差异非常大，但是BigTable还是成功的提供了一个灵活的、高性能的解决方案。不得不佩服BigTable！论文描述了BigTable提供的简单的数据模型，利用模型用户可以动态的控制数据的分布和格式，文章还描述BigTable的设计和实现。
BigTable已在60个Google的产品和项目上的到了应用！BigTable是一个稀疏的，分布式的，持久化存储的多维度排序Map。随着时间的推移，他们可以根据自己的系统对资源的需求增加情况，通过简单的增加机器，扩展系统的承载能力。

最后一篇讲的Google MapReduce，MapReduce是一个编程模型，也是一个处理和生成超大数据集的算法模型的相关实现。过去的好多年里，许多程序员为了处理海量的原始数据，已经实现了数以百计的，专用的计算方法，比如文档抓取（类似网络爬虫的程序）。我对爬虫略有了解，目的按要求过去万维网信息。MapReduce 编程模型在 Google 内部成功应用于多个领域。我们把这种成功归结为几个方面：首先，由于MapReduce 封装了并行处理、容错处理、数据本地化优化、负载均衡等等技术难点的细节，这使得 MapReduce库易于使用。我们也从 MapReduce 开发过程中学到了不少东西。首先，约束编程模式使得并行和分布式计算非常容易，也易于构造容错的计算环境；其次，网络带宽是稀有资源。大量的系统优化是针对减少网络传输量为目的的：本地优化策略使大量的数据从本地磁盘读取，中间文件写入本地磁盘、并且只写一份中间文件也节约了网络带宽；第三，多次执行相同的任务可以减少性能缓慢的机器带来的负面影响（alex 注：即硬件配置的不平衡），同时解决了由于机器失效导致的数据丢失问题。

三篇论文紧密联系，从文件管理到数据处理再到数据算法，在文字向我们展示了Google可以简单的操控大数据，为自己为网民提供便捷。随着时间的推移，这些系统模型会逐步完善加强，功能变得更加强大，速度只会也来越快！
整个世界可以说是由数据组成，所以，我们是应该好好学习数据，借大数据看向未来。我们离不开数据，大数据或许可以改变未来！!