
分布式存储
西门仙忍
从事数据库领域8年
展开
-
全局索引
单机表索引:本地分区索引(Local Partitioned Index):原创 2020-06-26 21:06:50 · 3110 阅读 · 0 评论 -
谷歌技术"三宝"之BigTable
2006年的OSDI有两篇google的论文,分别是BigTable和Chubby。Chubby是一个分布式锁服务,基于Paxos算法;BigTable是一个用于管理结构化数据的分布式存储系统,构建在GFS、Chubby、SSTable等google技术之上。相当多的google应用使用了BigTable,比如Google Earth和Google Analytics,因此它和GFS、MapRed转载 2015-01-05 12:19:46 · 503 阅读 · 0 评论 -
Understanding HBase and BigTable
Understanding HBase and BigTableThe hardest part about learning HBase (the open source implementation of Google's BigTable), is just wrapping your mind around the concept of what it actually is.转载 2015-01-05 19:25:36 · 372 阅读 · 0 评论 -
Amazon Dynamo系统架构
http://www.linuxeye.com/architecture/1679.html一、系统概述1、Amazon平台概述 Amazon平台是一个由数百服务组成的面向服务的架构,其秉承高度去中心化、松散耦合、完全分布式的原则,具体架构参考下图1。图1 Amazon系统架构在这种环境中,尤其需要一个始终可用的存储系统,由此,Dynam转载 2014-11-21 16:32:14 · 679 阅读 · 0 评论 -
Dynamo的实现技术和去中心化
Amazon Dynamo是分布式的key-value系统,最近阅读了Dynamo最初的论文《Dynamo: Amazon's Highly Available Key-value Store》,本文想聊一聊它的去中心化(decentralization)。既有阅读相关材料后对其实现的理解,也有自己的思考,其中如有不正确言论欢迎指出。中心节点通常,我们见到的分布式存储结构都是具转载 2014-11-23 22:19:39 · 1129 阅读 · 0 评论 -
OpenStack对象存储:Swift架构详解
OpenStack Object Storage(Swift)是OpenStack开源云计算项目的子项目之一,被称为对象存储,提供了强大的扩展性、冗余和持久性。本文将从架构、原理和实践等几方面讲述Swift。 Swift并不是文件系统或者实时的数据存储系统,它称为对象存储,用于永久类型的静态数据的长期存储,这些数据可以检索、调整,必要时进行更新。最适合存储的数据类型的例子是虚拟机镜像、图片存储、邮转载 2014-11-21 12:20:19 · 4316 阅读 · 1 评论 -
Openstack Swift 原理、架构与 API 介绍
背景与概览Swift 最初是由 Rackspace 公司开发的高可用分布式对象存储服务,并于 2010 年贡献给 OpenStack 开源社区作为其最初的核心子项目之一,为其 Nova 子项目提供虚机镜像存储服务。Swift 构筑在比较便宜的标准硬件存储基础设施之上,无需采用 RAID(磁盘冗余阵列),通过在软件层面引入一致性散列技术和数据冗余性,牺牲一定程度的数据一致性来达到高可用性和可转载 2014-11-24 15:37:56 · 688 阅读 · 0 评论 -
OpenStack Swift 云存储技术详解
Swift云存储技术详解:综述与概念 OpenStack Object Storage (Swift) 是用来创建冗余的、可扩展的对象存储(引擎)的开源软件。通过阅读Swift的技术文档,我们可以理解其中的设计的原理和实现的方法 。 Swift项目已经进展有两年了,对外开放也一年有余,在国外的社区你可以获得许多帮助,但在国内只能找到一些零零散散不齐全的资料,许多人更喜欢坐享其成转载 2014-12-31 20:43:18 · 1850 阅读 · 0 评论 -
存储云结构比较——Dynamo VS Bigtable
存储云结构比较——Dynamo VS Bigtable比较典型的存储云基础系统有Amazon公司的Dynamo系统与Google公司的Bigtable系统,这两种系统不但已经开始是商用(参见S3 服务和 Google App Engine服务),而且都公开了比较详细的实现论文(尤其dynamo系统论文格外详尽——可见Amazon公司的无私和自信)。它们各自实现架构迥异,存储特性不一,但都结构优转载 2014-12-31 20:49:13 · 830 阅读 · 0 评论 -
百度、新浪、Mixi、Apache社区赞助的开源key-value分布式存储系统
key-value分布式存储系统查询速度快、存放数据量大、支持高并发,非常适合通过主键进行查询,但不能进行复杂的条件查询。如果辅以Real-Time Search Engine(实时搜索引擎)进行复杂条件检索、全文检索,就可以替代并发性能较低的MySQL等关系型数据库,达到高并发、高性能,节省几十倍服务器数量的目的。以MemcacheDB、Tokyo Tyrant为代表的key-value分布式存转载 2015-01-02 14:55:31 · 564 阅读 · 0 评论 -
谷歌技术"三宝"之谷歌文件系统
题记:初学分布式文件系统,写篇博客加深点印象。GFS的特点是使用一堆廉价的商用计算机支撑大规模数据处理。虽然"The Google File System " 是03年发表的老文章了,但现在仍被广泛讨论,其对后来的分布式文件系统设计具有指导意义。然而,作者在设计GFS时,是基于过去很多实验观察的,并提出了很多假设作为前提,这等于给出了一个GFS的应用场景。所以我们自己在设计分布式系统时,一转载 2015-01-05 12:21:29 · 725 阅读 · 0 评论 -
分布式基础学习【一】 —— 分布式文件系统
分布式基础学习所谓分布式,在这里,很狭义的指代以Google的三驾马车,GFS、Map/Reduce、BigTable为框架核心的分布式存储和计算系统。通常如我一样初学的人,会以Google这几份经典的论文作为开端的。它们勾勒出了分布式存储和计算的一个基本蓝图,已可窥见其几分风韵,但终究还是由于缺少一些实现的代码和示例,色彩有些斑驳,缺少了点感性。幸好我们还有Open Source,还转载 2015-01-04 23:14:25 · 521 阅读 · 0 评论 -
分布式文件系统设计主要关注几个方面
分布式文件系统设计主要关注几个方面:设计特点、分布式能力、性能、容灾、维护和扩展、成本 分布式文件系统主要关键技术:全局名字空间、缓存一致性、安全性、可用性、可扩展性 其他关键技术:文件系统的快照和备份技术、热点文件处理技术、元数据集群的负载平衡技术、分布式文件系统的日志技术 一、GFS(google file sy转载 2015-01-02 14:54:39 · 684 阅读 · 0 评论 -
“分布式哈希”和“一致性哈希”
分布式哈希(DHT) 两个key point:每个节点只维护一部分路由;每个节点只存储一部分数据。从而实现整个网络中的寻址和存储。DHT只是一个概念,提出了这样一种网络模型。并且说明它是对分布式存储很有好处的。但具体怎么实现,并不是DHT的范畴。 一致性哈希: DHT的一种实现。本质还是一个哈希算法。回想平时我们做负载均衡,按querystring签名对后端节点取模是最简转载 2015-02-08 10:57:42 · 485 阅读 · 0 评论 -
Linux 下的两种分层存储方案
背景介绍随着固态存储技术 (SSD),SAS 技术的不断进步和普及,存储介质的种类更加多样,采用不同存储介质和接口的存储设备的性能出现了很大差异。SSD 相较于传统的机械硬盘,由于没有磁盘的机械转动,寻址速度大大提高,尤其在随机读写较多的应用环境下,性能会大大提升,但这些高性能存储设备的单位存储价格相对于传统的磁带和 SATA 硬盘也高出很多,如图 1 所示。图 1 不同存储设备的转载 2015-02-06 14:00:22 · 850 阅读 · 0 评论 -
再理解HDFS的存储机制
1. HDFS开创性地设计出一套文件存储方式,即对文件分割后分别存放;2. HDFS将要存储的大文件进行分割,分割后存放在既定的存储块(Block)中,并通过预先设定的优化处理,模式对存储的数据进行预处理,从而解决了大文件储存与计算的需求;3. 一个HDFS集群包括两大部分,即NameNode与DataNode。一般来说,一个集群中会有一个NameNode和多个Da转载 2014-12-15 11:15:28 · 559 阅读 · 0 评论 -
云存储中的数据完整性校验——综述
问题的提出云存储就是将储存资源放到云上供人存取的一种新兴方案。使用者可以在任何时间、任何地方,透过任何可连网的装置连接到云上方便地存取数据。大量的用户数据都是放在云服务器上,对数据的安全性保障是提高云服务商服务质量及用户愿意享受云存储服务的前提和保障。在云计算出现以前,用户的数据通常保存在本地。如果用户想确定自己的数据是否完整,最简单的方法是亲自查看一下数据,就可以知道转载 2015-01-11 00:51:59 · 2169 阅读 · 1 评论 -
Bigtable探秘 Google分布式数据存储系统DFS
摘要Bigtable是一个分布式的结构化数据存储系统,它被设计用来处理海量数据:通常是分布在数千台普通服务器上的PB级的数据。Google 的很多项目使用Bigtable存储数据,包括Web索引、Google Earth、Google Finance。这些应用对Bigtable提出的要求差异非常大,无论是在数据量上(从URL到网页到卫星图像)还是在响应速度上(从后端的批量处理到实时数据服务转载 2014-12-04 10:52:21 · 1139 阅读 · 0 评论 -
GFS架构分析
Google文件系统(Google File System,GFS)是构建在廉价的服务器之上的大型分布式系统。它将服务器故障视为正常现象,通过软件的方式自动容错,在保证系统可靠性和可用性的同时,大大减少了系统的成本。GFS是Google云存储的基石,其它存储系统,如Google Bigtable,Google Megastore,Google Percolator均直接或者间接地构建在GF转载 2015-01-06 14:19:20 · 922 阅读 · 0 评论