从刚开始的大数据课到我读了谷歌有关大数据的论文,对我的影响很大,从对大数据的一无所知,到现在的懵懵懂懂,了解到了Google关于大数据前沿报告,这三篇论文分别是Google File System、Google Bigtable、Google MapReduce,每一篇都介绍了一种系统。
GFS 作为存储平台已经被广泛的部署在 Google 内部,GFS是设计者们重新审视了传统文件系统在设计上的折衷选择,衍生 出了完全不同的设计思路。首先,组件失效被认为是常态事件,而不是意外事件。其次,以通常的标准衡量,我们的文件非常巨大。第三,绝大部分文件的修改是采用在文件尾部追加数据,而不是覆盖原有数据的方式。第四,应用程序和文件系统 API 的协同设计提高了整个系统的灵活性。使用 GFS 的应用程序可以利用一些简单技术实现这个宽松的一致性模型,这些技术也用来实现一些其它 的目标功能,包括:尽量采用追加写入而不是覆盖,Checkpoint,自验证的写入操作,自标识的记录。
Bigtable 是一个分布式的结构化数据存储系统,它被设计用来处理海量数据:通常是分布在数千台普通服 务器上的 PB 级的数据。Bigtable 是一个稀疏的、分布式的、持久化存储的多维度排序 Map5。Bigtable 提供了建立和删除表以及列族的 API 函数。Bigtable 还提供了修改集群、表和列族的元数据的 API,Bigtable 包括了三个主要的组件:链接到客户程序中的库、一个 Master 服务器和多个 Tablet 服务器。针 对系统工作负载的变化情况,BigTable 可以动态的向集群中添加(或者删除)Tablet 服务器。 Master 服务器主要负责以下工作:为 Tablet 服务器分配 Tablets、检测新加入的或者过期失效的 Table 服 务器、对 Tablet 服务器进行负载均衡、以及对保存在 GFS 上的文件进行垃圾收集。除此之外,它还处理对模 式的相关修改操作,例如建立表和列族。 每个 Tablet 服务器都管理一个 Tablet 的集合(通常每个服务器有大约数十个至上千个 Tablet)。每个 Tablet 服务器负责处理它所加载的 Tablet 的读写操作,以及在 Tablets 过大时,对其进行分割。 和很多 Single-Master 类
《谷歌大数据经典论文读后感》
最新推荐文章于 2024-11-14 17:10:04 发布

最低0.47元/天 解锁文章

1083

被折叠的 条评论
为什么被折叠?



