select count(*) 数据量大时,怎么解决他的慢?

本文深入探讨MySQL中Count函数的不同用法及其性能差异,特别是在MyISAM与InnoDB引擎下的表现。通过对Count(*)、Count(1)、Count(字段)及Count(id)的对比,揭示了InnoDB如何通过优化减少数据扫描量,提升查询效率。

mysql实战45讲笔记:

 

在不同的 MySQL 引擎中,count(*) 有不同的实现方式,比如:

MyISAM 引擎把一个表的总行数存在了磁盘上,因此执行 count(*) 的时候会直接返回这个数,效率很高;

而 InnoDB 引擎就麻烦了,它执行 count(*) 的时候,需要把数据一行一行地从引擎里面读出来,然后累积计数。

 

数据量大了以后,innodb的方式自然就很慢,那么innodb自身是如何优化的呢?

因为innodb的B+索引存放数据的方式,所以只要从最小的索引树去取数据计算,就好了,在保证逻辑正确的前提下,尽量减少扫描的数据量,是数据库系统设计的通用法则之一。

那么,能不能有更好的方式呢?自然是有的,可以将数据行数记录起来。注意,如果使用redis等缓存或者其他的服务/进程级别的处理方式,基本上就是引入了分布式事务的问题了,因此数据一致性等问题没法保证。但是可以利用mysql的INNODB自身的特性,首先,INNODB支持事务,所以,count可以利用这一点,在事务中去对count()增删改查,这样,就能保证count()在不同事务间的准确了。

对两个会话来说,读到的count()都是准确的。但是,最好是在事务的末尾对count数的记录表进行更新,这样可以最小限度的控制count()表的行锁竞争,毕竟如果有多个事务都需要对同一个表的count()数据进行update时,首先获取到行锁的事务如果不尽快提交,后面的事务就会被阻塞。

 

 

最后对count()常见的问题做一下总结:

count(id),count(*),count(字段),count(1),他们的实现方式和性能差异?

分析性能差别的时候,可以记住这么几个原则:

server 层要什么就给什么;

InnoDB 只给必要的值;

现在的优化器只优化了 count(*) 的语义为“取行数”,其他“显而易见”的优化并没有做。

所以,对于count(1),innodb只返回了行数,没有返回数据,server给每行放进去个1,然后判断返回的数据定义,如果可能为null,判断值是不是null,然后统计;

对于count(字段),如果innodb读取字段数据,返回字段数据,server读取字段,判断字段属性可否为null,如果可以为null,再判断值是否为null,然后统计,

对于count(id),innodb读取id主键数据,(当然也可以从其他索引得到id,减小数据的io)然后返回server,server判断字段属性可否为null;主键不可能为null,直接统计;

对于coung(*),innodb做了优化,不取数据,只返回行数,然后server判断是否为null,不可能为null,直接统计;

 

所以,性能count(*) > count(1)>count(id)> count(字段),

可以从:

需要读取数据行传输数据,需要放入值,需要判断字段属性,需要判断字段值,从这几个方面去考虑。

 

### 查询优化与执行计划 在MySQL中,`SELECT COUNT(*)` 和 `SELECT COUNT(1)` 是否会导致全表扫描,取决于数据库的具体实现和优化策略。在某些情况下,这些查询确实会触发全表扫描,尤其是在没有合适的索引可用。然而,在其他情况下,数据库优化器可能会选择更高效的执行路径[^3]。 #### MySQL 的优化策略 MySQL 的优化器通常会选择成本最小的查询路径。对于无 `WHERE` 子句的 `COUNT(*)` 查询,优化器可能会选择使用最小的辅助索引进行计数,而不是进行全表扫描。这是因为辅助索引的小通常小于主键索引或数据表本身,从而减少I/O操作,提高查询效率。例如,如果存在一个名为 `name_score` 的索引,优化器可能会利用该索引来加速计数操作[^1]。 #### 全表扫描与索引扫描的比较 尽管如此,在某些特定场景下,MySQL 可能会选择全表扫描而非索引扫描。例如,当查询条件涉及多个字段,即使这些字段都有索引,优化器也可能认为全表扫描的代价更低。这种情况下,即使使用了覆盖索引,查询性能也可能不如全表扫描。例如,假设有一个名为 `person` 的表,包含 `name` 和 `create_time` 字段,当执行如下查询: ```sql SELECT create_time FROM person WHERE name > 'name84059' AND create_time > '2020-05-23 14:39:18' ``` 即使 `name` 和 `create_time` 都有索引,MySQL 仍然可能选择全表扫描。通过强制使用 `create_time` 索引,可以观察到查询间的变化,从而验证优化器的选择是否合理。例如: ```sql SELECT create_time FROM person FORCE INDEX (create_time) WHERE name > 'name84059' AND create_time > '2020-05-23 14:39:18' ``` 实验结果显示,使用覆盖索引的查询间(2.0ms)明显优于全表扫描(4.0ms),这表明优化器的选择并不总是最优的[^3]。 #### 数据量下的性能考量 然而,当数据量非常,即使使用非聚簇索引,`COUNT(*)` 的性能提升也有限。这是因为 `COUNT(*)` 需要遍历所有符合条件的数据,相当于一个计数器。在这种情况下,索引虽然可以提高查询速度,但无法完全解决效率问题。因此,对于数据量的表,优化 `COUNT(*)` 查询的性能可能需要采取其他策略,如分页查询或定期缓存统计结果[^4]。 ### 相关问题 1. 在SQL中,如何优化COUNT查询的性能? 2. 除了COUNT函数,SQL中还有哪些常用的聚合函数? 3. 在哪些情况下,COUNT(1)和COUNT(*)的结果会不同?
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值