前言
前面学习了GFS(分布式存储系统),MapReduce(分布式数据处理)
接下来学习最后一个技术:分布式结构化数据表BigTable
谷歌技术"三宝"之BigTable
Google Bigtable 中文版
引进BigTable
GFS(2003年发表)使用商用硬件集群存储海量数据。文件系统将数据在节点之间冗余复制。MapReduce(2004)是GFS架构的一个补充,因为它能够充分利用GFS集群中所有低价服务器提供的大量CPU
但是两个系统都有一定的缺陷:
- 两个系统都缺乏实时随机存取数据的能力,意味着尚不足以处理Web服务
- GFS的另一个缺陷就是,它适合存储少许非常非常大的文件,而不适合存储成千数万的小文件,文件越多master的压力越大
考虑放弃关系型的特点,采用简单的API来进行增删改查操作,另加一个扫描函数,以在较大的键范围或全表上迭代扫描,最终形成一个管理结构化数据的分布式存储系统BigTable(2006)