分布式之存储高性能

原创已于 2022-10-19 18:38:04 修改 · 937 阅读

0 ·

CC 4.0 BY-SA版权

本文为博主原创文章，未经博主允许不得转载。

文章标签：

#分布式 #微服务

于 2022-10-17 19:30:01 首次发布

分布式架构理论专栏收录该内容

6 篇文章

订阅专栏

本文探讨了提高存储性能的几种分布式策略，包括读写分离、分库分表、全文搜索引擎、列式数据库和文档数据库的使用。读写分离通过减少主库压力，分库分表解决数据量大带来的性能问题，全文搜索引擎如ES提高搜索效率，列式数据库如Hbase用于统计，文档数据库如MongoDB允许动态结构，分布式缓存如Redis应对高并发读取。各种方案针对不同场景，如电商系统中的商品、订单和用户数据模块，需要根据业务需求灵活选择。

文章目录

前言

存储高性能的概念
- 存储
  - 存储主要指的是数据库。
- 高性能
  - 高性能主要指的是数据库的高性能[写数据的性能；读取数据的性能]。

一、读写分离

概念
- 读写分离其实是将数据的读和写分开存储，并且使用同步工具从写库往读库同步数据；如图：
前提
- 操作系统是独立的；主库与从库是部署在不同的主机上的。
读写分离的缺陷
- 缺陷
  - 数据库压力过大，导致数据读写性能下降。
    - 局限
      - 数据磁盘容量有限。
    - 解决方案
      - 降低数据库的压力
        使用分库分表。
  - 数据同步[写—同步—>读]有时间上的延迟，造成无法实时查询数据。
    - 解决方案
      - 直接读写库【不推荐】；如图：
        
        缺陷
        业务代码入侵大，造成代码不稳定。
        
        使用场景
        数据一致性比较强，使用该方案。
      - 先读从然后读取主库
        
        数据写入主库后，查询从库如果没有查询到写入的数据，再去读取主库即可；如图：
        
        优势
        
        可以解决业务代码入侵大的问题 [查询添加数据根据数据的ID查询]。
        
        缺陷
        
        主库的并发压力大。
        
        使用场景
        
        数据一致性比较强，使用该方案。
      - 使用互斥锁
        
        直接从读库[从库]中读取数据
场景总结 [CAP定理]
- 电商系统，商品数据模块【使用读写分离即可，一致性不需要太强】
- 电商系统，订单数据模块【使用读写分离，读取主库；一致性比较强】
- 电商系统，用户数据模块【使用读写分离，读取主库；一致性比较强】
- 电商系统，商品评价模块【使用读写分离，一致性不需要太强】
  根据系统发特点选择读写分离的方案。
- 读写分离是为解决系统高并发查询的问题。

二、分库分表

分库
- 分库是为了解决数据库的压力[磁盘容量有限]，将一个数据库分成多个库来存储数据来缓解数据库的压力；如图：
分表
- 分表是为了解决表数据量过大造成的性能下降的问题，将一个表分成多个表来存储不同的数据叫分表；如图：
读写分写+分库分表
- 解决数据量与并发量大的问题[先分库分表在读写分离]；如图：
- 场景
  - 以京东商城为例：
    - 商城的商品数据适合：分库分表+读写分离
    - 商城的订单数据适合：分库分表+读写分离
    - 商城的优惠券适合：分表+读写分离
- 实现思路
  - 分布式系统
    - 根据数据量与并发量的大小选择分库分表和读写分离。
  - 单体系统
    - 通过代码和配置实现。
业务分库
- 业务分库就是将不同的业务拆分出来分成不同的数据库叫做业务分库，以电商系统为例，如图：
- 场景
  - 微服务系统的设计。
- 前提
  - 分布式系统。
  - 业务之间存在资源竞争的问题。
- 缺陷
  - 数据库变多，公司的成本变大。

三、全文搜索引擎

方案
- 使用关系型数据库分库分表+读写分离的方式实现搜索 [不推荐]；如图：
  - 缺陷
    - 关系型数据库只能使用like[模糊查询]全局扫描查询到数据，如果数据量过大，性能会很低。
- 使用NoSql数据库 [ES] [推荐]
  当系统将数据写入到关系型数据库，数据写入成功后，再将数据同步到ES数据库中，当用户搜索数据时，系统直接到ES中查找数据，这样性能就可以得到提升；如图：
  - 同步工具
    - Mysql
      - canal
    - 其他数据库
      - DataX
  - 缺陷
    - 关系型数据库往ES同步数据的时候存在数据延迟的问题，系统有可能搜索不到数据。