《大规模分布式存储系统》第一章 概述

本文介绍了大规模分布式存储系统的基本概念,强调了可扩展性、低成本、高性能和易用性的重要性。文章探讨了分布式系统的数据分布、一致性、容错和负载均衡,以及数据库的事务与并发控制。接着,从数据角度分类了分布式存储,包括非结构化数据、结构化数据和半结构化数据,并分别讨论了分布式文件系统、K-V系统和表格系统的特性。最后,提到了NoSQL和NewSQL的发展趋势。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

  • 分布式存储概念
分布式存储系统具备以下几个特点:
  1. 可扩展:目前分布式存储系统几百台规模很常见,多的可以达到几千上万台,Amazon S3设计目标甚至达到10-30万台。集群规模并不是初始化阶段就会达到很大,都是随着业务的增长逐渐扩展,需要分布式系统支持可扩展。而且随着集群规模的增长,系统整体性能也需要呈线性增加。
  2. 低成本:成本分为两部分,一部分是机器成本,分布式系统需要在异构的机器上运行,且机器可能是比较廉价的机型(例如成本敏感的产品线机器都会配置较差),这就需要程序具备一定的容错、负载均衡等能力。另一部分是运维成本,分布式存储系统,在中后期规模的增长运维成本凸显,这就需要在前期的设计阶段充分考虑到运维情况。
  3. 高性能:分布式存储系统,无论是集群整体,还是单机都需要高性能。
  4. 易用:易用性包括两部分,一部分是对外接口(减轻产品线工作量,包括数据类型的支持、协议的易编程性),另一部分是需要提供完整的监控、运维工具(例如,DashBoard、cli、sla统计分析数据等等)。
分布式存储系统的难点核心在于, 数据与元数据 的持久化。在高并发读写、自动扩缩容、容错机制等系统后台程序运行的情况下保证数据的一致性、可靠性。
分布式存储主要涉及到两个领域的问题, 一是分布式系统,二是数据库
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值