假设数据库成为了性能瓶颈点,动态数据查询如何提升效率?

假设我们有一个这样的电商系统,并且这个系统完成了对数据库的主从分离和分库分表之后,已经可以支撑十几万 DAU 了,整体系统的架构如下:

从整体上看,数据库分成了主库和从库,数据也被切分到多个数据库节点上。但随着并发的增加,存储数据量的增多,数据库的磁盘 IO 逐渐成了系统的瓶颈,我们需要一种访问更快的组件来降低请求响应时间,提升整体系统性能。这时我们就会使用缓存。那么什么是缓存,我们又该如何将它的优势最大化呢?

由于篇幅限制,只能给大家展示小部分内容,

全套面试笔记及答案【点击此处】即可免费获取

31.1 什么是缓存

缓存,是一种存储数据的组件,它的作用是让对数据的请求更快地返回。

我们经常会把缓存放在内存中来存储, 所以有人就把内存和缓存画上了等号,这完全是外行人的见解。作为业内人士,你要知道在某些场景下我们可能还会使用 SSD 作为冷数据的缓存。比如说 360 开源的 Pika 就是使用 SSD 存储数据解决 Redis 的容量瓶颈的。

实际上,凡是位于速度相差较大的两种硬件之间,用于协调两者数据传输速度差异的结构,均可称之为缓存。那么说到这儿我们就需要知道常见硬件组件的延时情况是什么样的了,这样在做方案的时候可以对延迟有更直观的印象。幸运的是,业内已经有人帮我们总结出这些数据了,我将这些数据整理了一下,你可以看一下。

从这些数据中,你可以看到,做一次内存寻址大概需要 100ns,而做一次磁盘的查找则需要 10ms。如果我们将做一次内存寻址的时间类比为一个课间,那么做一次磁盘查找相当于度过了大学的一个学期。可见,我们使用内存作为缓存的存储介质相比于以磁盘作为主要存储介质的数据库来说,性能上会提高多个数量级,同时也能够支撑更高的并发量。所以,内存是最常见的一种缓存数据的介质。

缓存作为一种常见的空间换时间的性能优化手段,在很多地方都有应用,我们先来看几个例子,相信你一定不会陌生。

31.2 缓存案例

Linux 内存管理是通过一个叫做 MMU(Memory Management Unit)的硬件,来实现从虚拟地址到物理地址的转换的,但是如果每次转换都要做这么复杂计算的话,无疑会造成性能的损耗,所以我们会借助一个叫做 TLB(Translation Lookaside Buffer)的组件来缓存最近转换过的虚拟地址,和物理地址的映射。TLB 就是一种缓存组件,缓存复杂运算的结果,就好比你做一碗色香味俱全的面条可能比较复杂,那么我们把做好的面条油炸处理一下做成方便面,你做方便面的话就简单多了,也快速多了。这个缓存组件比较底层,这里你只需要了解一下就可以了。

在大部分的笔记本,桌面电脑和服务器上都会有一个或者多个 TLB 组件,在不经意间帮助我们加快地址转换的速度。

再想一下你平时经常刷的抖音。平台上的短视频实际上是使用内置的网络播放器来完成的。网络播放器接收的是数据流,将数据下载下来之后经过分离音视频流,解码等流程后输出到外设设备上播放。

如果我们在打开一个视频的时候才开始下载数据的话,无疑会增加视频的打开速度(我们叫首播时间),并且播放过程中会有卡顿。所以我们的播放器中通常会设计一些缓存的组件,在未打开视频时缓存一部分视频数据,比如我们打开抖音,服务端可能一次会返回三个视频信息,我们在播放第一个视频的时候,播放器已经帮我们缓存了第二、三个视频的部分数据,这样在看第二个视频的时候就可以给用户“秒开”的感觉。

除此之外,我们熟知的 HTTP 协议也是有缓存机制的。当我们第一次请求静态的资源时,比如一张图片,服务端除了返回图片信息,在响应头里面还有一个“Etag”的字段。浏览器会缓存图片信息以及这个字段的值。当下一次再请求这个图片的时候,浏览器发起的请求头里面会有一个“If-None-Match”的字段,并且把缓存的“Etag”的值写进去发给服务端。服务端比对图片信息是否有变化,如果没有,则返回浏览器一个 304 的状态码,浏览器会继续使用缓存的图片信息。通过这种缓存协商的方式,可以减少网络传输的数据大小,从而提升页面展示的性能。

31.3 缓存与缓冲

讲了这么多缓存案例,想必你对缓存已经有了一个直观并且形象的了解了。除了缓存,我们在日常开发过程中还会经常听见一个相似的名词——缓冲区,那么,什么是缓冲区呢?缓冲和缓存只有一字之差,它们有什么区别呢?

我们知道,缓存可以提高低速设备的访问速度,或者减少复杂耗时的计算带来的性能问题。理论上说,我们可以通过缓存解决所有关于“慢”的问题,比如从磁盘随机读取数据慢,从数据库查询数据慢,只是不同的场景消耗的存储成本不同。

缓冲区则是一块临时存储数据的区域,这些数据后面会被传输到其他设备上。缓冲区更像“消息队列篇”中即将提到的消息队列,用以弥补高速设备和低速设备通信时的速度差。比如,我们将数据写入磁盘时并不是直接刷盘,而是写到一块缓冲区里面,内核会标识这个缓冲区为脏。当经过一定时间或者脏缓冲区比例到达一定阈值时,由单独的线程把脏块刷新到硬盘上。这样避免了每次写数据都要刷盘带来的性能问题。

以上就是缓冲区和缓存的区别,从这个区别来看,上面提到的 TLB 的命名是有问题的,它应该是缓存而不是缓冲区。

现在你已经了解了缓存的含义,那么我们经常使用的缓存都有哪些?我们又该如何使用缓存,将它的优势最大化呢?

31.4 缓存分类

在我们日常开发中,常见的缓存主要就是静态缓存、分布式缓存和热点本地缓存这三种。

静态缓存在 Web 1.0 时期是非常著名的,它一般通过生成 Velocity 模板或者静态 HTML 文件来实现静态缓存,在 Nginx 上部署静态缓存可以减少对于后台应用服务器的压力。例如,我们在做一些内容管理系统的时候,后台会录入很多的文章,前台在网站上展示文章内容,就像新浪,网易这种门户网站一样。

当然,我们也可以把文章录入到数据库里面,然后前端展示的时候穿透查询数据库来获取数据,但是这样会对数据库造成很大的压力。虽然我们使用分布式缓存来挡读请求,但是对于像日均 PV 几十亿的大型门户网站来说,基于成本考虑仍然是不划算的。

所以解决思路是每篇文章在录入的时候渲染成静态页面,放置在所有的前端 Nginx 或者 Squid 等 Web 服务器上,这样用户在访问的时候会优先访问 Web 服务器上的静态页面,在对旧的文章执行一定的清理策略后,依然可以保证 99% 以上的缓存命中率。

这种缓存只能针对静态数据来缓存,对于动态请求就无能为力了。那么我们如何针对动态请求做缓存呢?这时就需要分布式缓存了。

分布式缓存的大名可谓是如雷贯耳了,我们平时耳熟能详的 Memcached、Redis 就是分布式缓存的典型例子。它们性能强劲,通过一些分布式的方案组成集群可以突破单机的限制。所以在整体架构中,分布式缓存承担着非常重要的角色(接下来的课程会专门针对分布式缓存,了解分布式缓存的使用技巧以及高可用的方案,让你能在工作中对分布式缓存运用自如)。

对于静态的资源的缓存你可以选择静态缓存,对于动态的请求你可以选择分布式缓存,那么什么时候要考虑热点本地缓存呢?

答案是当我们遇到极端的热点数据查询的时候。热点本地缓存主要部署在应用服务器的代码中,用于阻挡热点查询对于分布式缓存节点或者数据库的压力。

比如某一位明星在微博上有了热点话题,“吃瓜群众”会到他 (她) 的微博首页围观,这就会引发这个用户信息的热点查询。这些查询通常会命中某一个缓存节点或者某一个数据库分区,短时间内会形成极高的热点查询。

那么我们会在代码中使用一些本地缓存方案,如 HashMap,Guava Cache 或者是 Ehcache 等,它们和应用程序部署在同一个进程中,优势是不需要跨网络调度,速度极快,所以可以用来阻挡短时间内的热点查询。来看个例子。

比方说你的垂直电商系统的首页有一些推荐的商品,这些商品信息是由编辑在后台录入和变更。你分析编辑录入新的商品或者变更某个商品的信息后,在页面的展示是允许有一些延迟的,比如说 30 秒的延迟,并且首页请求量最大,即使使用分布式缓存也很难抗住,所以你决定使用 Guava Cache 来将所有的推荐商品的信息缓存起来,并且设置每隔 30 秒重新从数据库中加载最新的所有商品。

首先,我们初始化 Guava 的 Loading Cache:

CacheBuilder<String, List<Product>> cacheBuilder = CacheBuilder.newBuilder().maximumSize(maxSize).recordStats(); //设置缓存最大值
cacheBuilder = cacheBuilder.refreshAfterWrite(30, TimeUnit.Seconds); //设置刷新间隔
 
LoadingCache<String, List<Product>> cache = cacheBuilder.build(new CacheLoader<String, List<Product>>() {
    @Override
    public List<Product> load(String k) throws Exception {
        return productService.loadAll(); // 获取所有商品
    }
});

这样,你在获取所有商品信息的时候可以调用 Loading Cache 的 get 方法,就可以优先从本地缓存中获取商品信息,如果本地缓存不存在,会使用 CacheLoader 中的逻辑从数据库中加载所有的商品。

由于本地缓存是部署在应用服务器中,而我们应用服务器通常会部署多台,当数据更新时,我们不能确定哪台服务器本地中了缓存,更新或者删除所有服务器的缓存不是一个好的选择,所以我们通常会等待缓存过期。因此,这种缓存的有效期很短,通常为分钟或者秒级别,以避免返回前端脏数据。

 ……

<think>我们正在讨论的是当数据库成为性能瓶颈时,如何优化动态数据查询提升性能。根据引用内容,我们可以从多个层面进行优化。以下是结构化的解决方案: ### 一、数据库架构优化 1. **读写分离**(引用[4]) - 主库处理写操作,多个从库处理读操作 - 使用中间件(如ProxySQL)自动路由查询 ```mermaid graph LR A[应用] --> B{SQL类型} B -->|写操作| C[主库] B -->|读操作| D[从库集群] ``` 2. **分库分表** - 垂直分库:按业务模块分离(用户库/订单库) - 水平分表:按时间或哈希分片(如`order_2023q1`) ### 二、查询优化技术 #### 1. 索引优化(引用[2][3]) - **覆盖索引**:避免回表查询 ```sql -- 创建覆盖索引示例 CREATE INDEX idx_covering ON orders(user_id, status); ``` - **索引选择性原则**: $$选择性 = \frac{不重复记录数}{总记录数}$$ 选择性>0.2的字段适合建索引 #### 2. 查询重写(引用[3]) - 避免全表扫描: ```sql -- 优化前 SELECT * FROM users WHERE YEAR(create_time)=2023; -- 优化后(利用索引) SELECT * FROM users WHERE create_time BETWEEN '2023-01-01' AND '2023-12-31'; ``` - 使用EXPLAIN分析执行计划: ```sql EXPLAIN SELECT * FROM products WHERE price > 100; ``` ### 三、缓存策略 1. **多级缓存架构** ```mermaid graph TB A[应用] --> B[本地缓存] B --> C[Redis集群] C --> D[数据库] ``` 2. **缓存更新策略** - 写穿透:更新DB同时更新缓存 - 延迟双删:更新DB→删缓存→延迟毫秒→再删缓存 ### 四、硬件与配置优化 1. **InnoDB参数调优** ```ini # my.cnf配置示例 innodb_buffer_pool_size = 系统内存的70% innodb_log_file_size = 1G ``` 2. **SSD存储**:随机IO性能提升100倍 ### 五、实时监控与应急 1. **慢查询日志分析** ```sql -- 开启慢查询日志 SET GLOBAL slow_query_log = ON; SET long_query_time = 1; -- 超过1秒的记录 ``` 2. **动态降级方案** - 非核心查询降级:返回缓存数据或默认值 - 限流保护:数据库连接数限制 ### 性能提升对比 | 优化手段 | 预期提升 | 实施复杂度 | |---------|---------|-----------| | 读写分离 | 读性能提升3-5倍 | ★★★ | | 索引优化 | 关键查询提速10-100倍 | ★★ | | 查询重写 | 特定查询提速10倍+ | ★ | | 缓存优化 | 热数据访问<5ms | ★★★★ | > **最佳实践**:建议每周分析慢查询日志,使用Percona Toolkit进行索引优化[^2]。对于分库分表等复杂方案,推荐使用ShardingSphere中间件[^4]。 §§相关问题§§ 1. 如何识别数据库中的慢查询? 2. 读写分离架构下如何保证数据一致性? 3. 分库分表后如何实现跨库查询? 4. 缓存与数据库双写一致性的解决方案有哪些? 5. 如何设计数据库连接池参数以应对高并发?</think>## 数据库动态查询性能优化方案(数据库瓶颈场景) 当数据库成为性能瓶颈时,可通过以下分层优化策略提升动态数据查询效率: --- ### 一、架构层优化 1. **读写分离架构**(引用[4]) ```mermaid graph LR A[应用服务] --> B{SQL类型} B -->|写操作| C[主数据库] B -->|读操作| D[从数据库集群] C --> E[数据同步] E --> D ``` - 主库处理写操作,读请求分散到多个从库 - 使用ProxySQL/MaxScale等中间件自动路由[^4] 2. **分库分表策略** - 垂直分库:按业务模块拆分(用户库、订单库) - 水平分表:按时间或哈希分片(如`order_2023q1`) - 分片键选择:高频查询字段(如`user_id`) --- ### 二、查询层优化 #### 1. 索引优化(引用[2][3]) - **覆盖索引**:避免回表查询 ```sql -- 创建覆盖索引 CREATE INDEX idx_cover ON orders(user_id, status, amount); -- 查询可直接使用索引 SELECT user_id, status FROM orders WHERE amount > 100; ``` - **索引选择性原则**: $$选择性 = \frac{不重复值}{总行数}$$ 选择性 > 0.2 的字段适合建索引 #### 2. 查询重写(引用[3]) ```sql -- 优化前(全表扫描) SELECT * FROM products WHERE YEAR(created_at)=2023; -- 优化后(范围查询+索引) SELECT * FROM products WHERE created_at BETWEEN '2023-01-01' AND '2023-12-31'; ``` #### 3. 执行计划分析 ```sql EXPLAIN ANALYZE SELECT * FROM users WHERE age > 30 AND city='北京'; ``` - 关注`type`列:避免`ALL`(全表扫描),目标`ref`或`range` - 检查`Extra`列:避免`Using filesort`,`Using temporary` --- ### 三、缓存层优化 ```mermaid graph TB A[应用层] --> B[本地缓存] B --> C[Redis集群] C --> D[数据库] ``` 1. **多级缓存策略** - 本地缓存:Caffeine/Guava缓存热数据(毫秒级响应) - 分布式缓存:Redis缓存复杂查询结果(设置合理TTL) 2. **缓存更新策略** - 写穿透:DB更新同步失效缓存 - 延迟双删:更新DB → 删缓存 → 延迟ms → 再删缓存 --- ### 四、数据库配置优化 1. **InnoDB引擎调优** ```ini # my.cnf 配置示例 innodb_buffer_pool_size = 系统内存的70% innodb_log_file_size = 1G innodb_flush_log_at_trx_commit = 2 ``` 2. **连接池优化** ```java // HikariCP配置 HikariConfig config = new HikariConfig(); config.setMaximumPoolSize(100); // 根据CPU核数调整 config.setConnectionTimeout(3000); ``` --- ### 五、实时监控与应急 1. **慢查询捕获** ```sql -- 开启慢查询日志 SET GLOBAL slow_query_log = ON; SET GLOBAL long_query_time = 1; -- 超过1秒的记录 ``` 2. **动态降级方案** - 非核心查询降级:返回缓存数据或默认值 - 查询限流:Guava RateLimiter控制访问频次 ```java RateLimiter limiter = RateLimiter.create(100); // 100QPS if(!limiter.tryAcquire()) return defaultData; ``` --- ### 优化效果对比 | 优化手段 | 预期提升 | 实施复杂度 | |-------------------|---------------|-----------| | 读写分离 | 读性能提升3-5倍 | ★★★ | | 覆盖索引 | 查询速度提升10x | ★★ | | 查询重写 | 特定查询提速5x | ★ | | 缓存优化 | 热数据访问<5ms | ★★★★ | > **最佳实践**:优先实施索引优化和查询重写(ROI最高),结合APM工具(如Arthas)持续监控SQL性能[^1][^3]。对于分库分表等复杂方案,建议使用ShardingSphere等成熟中间件[^4]。
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值