MySQL Cost Cost 说人话,怎优化语句?

本文通过一场关于SQL语句优化的对话,详细介绍了如何通过理解业务逻辑、优化语句结构和添加索引来提升数据库查询效率。文章展示了如何使用MySQL的OPTIMIZER_TRACE功能分析语句的执行计划,以及如何通过调整JOIN顺序、子查询和索引使用来降低查询成本。

小文一个数据库新鸟,但脾气比较急?今天有程序员问他新上的业务有没有不好的SQL 语句, 小文没好气的说,怎么看,你们自己写的,问我? 

程序员也没好气的回怼 ?  我算是问错人了,估计你也不会看COST ,优化问你算是白瞎了。

到底怎么能快速应付程序员的 ASKING 并且还能技高一筹的回怼他。Follow me.

基本每种数据库,在执行语句前都会评估执行语句的执行计划的 cost ,通过cost 来判断到底目前哪个 prepare plan 更好更快更强?

大致画了一个图

首先数据库的获知, 1  操作的成本 , 2 是否有替换的方案  3 在众多的方案中找到“最低”的执行计划

上边的查询会包含几个 点  1  JOIN 的次序, 2 访问的方法  3 子查询

那到底怎么评判那个 JOIN 的次序好,方法秒,子查询怎么查,MYSQL 基于 CPU  I/O 两个量来进行计算和最重的判断哪个COST 最低.

那下面问题来了,到底我怎么知道我要访问的表的cost是多少,有没有索引,索引里面怎么设置的。

那就引出 METADATA  数据库表状态, 其中包含了 row ,index 的SIZE, index 的信息, 是否是唯一的索引,  表的大小, 范围的评估 ,基数等等信息,(今天不谈统计信息)

STOP STOP  你巴拉巴拉说了这么多,对我有什么帮助?  小文愤怒到,你就告诉我怎么优化 那个什么鬼 语句?

好的我们先打开 OPTIMIZER_TRACE 功能  (小文:我不知道

MYSQL OPTIMIZER_TRACE),不知道的follow me.

我们先执行一条语句

select *

from employees as em 

left join titles as ti  on em.emp_no = ti.emp_no

left join (select emp_no from salaries where salary > 40000) as sa on em.emp_no = sa.emp_no limit 1;

然后我们在打开OPTIMIZER_TRACE功能的状态下, 执行这条语句后,我们看看OPTIMIZER_TRACE能给我什么?

首先通过 optimizer_trace可以看到,一条语句的执行过程分为三个步骤

1 preparation  2  optimization  3 execution

下面我们根据上面的语句以及 OPTIMIZER_TRACE反馈的信息,来看看到底MYSQL 在prepare 阶段做了什么。

1 格式化语句,由于语句撰写的不规范,所以语句一般都会在第一步进行规范的转换,例如字段,条件不带数据库前缀的等等

最终我们的上边的语句被格式化成下面图的样子

OK ,在基本上准备好要优化的语句后,下面就需要优化器开始优化了,一般提到优化就有次序的问题,到底怎么优化有是怎么个次序

在本次优化的语句,优化的步骤有 8步

1  condition_processing  首先先判断是否有 where 条件,由于语句最外层没有 where 条件,这里显示的是为 null

2 在下面是开始整理相关的表关系 table_dependencies


 其中row_may_be_null:列是否允许为NULL,意思不是指表中的列属性是否允许为NULL,这里说的是JOIN操作之后的列是否为NULL,是一个集合的概念,所以写语句如果可以写 JOIN 或者  INNER JOIN 就别在大大咧咧的写 LEFT JOIN 。

3  下面是要考虑可能会产生键与键之间的关联

4 然后给出了各个参与运算表的全表扫描的行数并且给出了cost 值,这里的表的行数准不准,或者cost 值是否能调整, 答案是行可能不准,cost 值可以调(PG 就可以调,并且可以很方便的调)

有人可能会问为什么呢,全都是全表扫描,看看执行计划便知,没有索引

小文插嘴道,哎哎哎 没索引 ,我加索引不就完了 

别急:优化语句可不是这样做的,如果光是添加索引这么简单,那不谁都会做了。优化语句,首先要明白业务逻辑(能从逻辑入手的那才是高手),然后在看语句的撰写是否是标准并符合当前数据库的优化引擎的要求,最后才是添加索引。如果在第一步就发现这条语句根本不符合业务逻辑,那你连优化的必要都没有直接就CANCEL这条语句了。

那现在怎么办?  小文问道

我们先看完当前的 optimizer_trace 在继续好吧

最后我们看一下生成的执行计划, MYSQL 会将几个执行计划进行比较,下面可以看到会出现一个 considered_execution_plan 和 rest_of_plan

前面的就是要使用的执行计划,而后面是多个执行计划进行比对败下阵的执行计划这里不再多说。具体的可以自己做一下,比对一下。

那我们添加索引吧 ?小文说到 ,别急 我们在来看看这语句的写法

下面这两条语句最后的结果都是一样的,那个你觉得更优

select * 

from (select emp_no from salaries where salary > 40000) as sa 

left join titles as ti on ti.emp_no = sa.emp_no

left join employees as em on ti.emp_no = em.emp_no limit 1;

select *

from employees as em 

left join titles as ti  on em.emp_no = ti.emp_no

left join (select emp_no from salaries where salary > 40000) as sa on em.emp_no = sa.emp_no limit 1;

另外这条语句的逻辑要干什么?如果是语句的意思是,找到雇员里面工资超过40000块的雇员的名单。你觉得他这样写对吗?

是是是,我去问问,小文答到。

最后的结果是什么小文,小文不好意思的回答,给开发看完语句他们说些的语句不对,他们重新写,大致的意思是找到雇员里面工资曾经超过 40000人员的名单。(如果是工资表,那里面可以没有去重,获得名单都是重复的)

后面他们给的语句是

select distinct * from (

select em.emp_no,em.first_name,em.last_name

from  employees as em 

inner join (select emp_no from salaries where salary > 40000) as sa on em.emp_no = sa.emp_no) as a

NO NO NO ,小文你看看如果我们把他们的语句改写成这样如何,快了不到0.9秒。

select em.emp_no,em.first_name,em.last_name

from (select distinct emp_no from salaries where salary > 40000) as sa

inner join employees as em on em.emp_no = sa.emp_no;

小文喜上眉梢,问为什么这样写会快 ???  老鸟瞟了一眼小文,“保密”

其实SQL 语句的优化,可以走这样一个步骤

1  弄清语句的业务逻辑,能在业务逻辑上修改,或者优化的就不要推到语句的层面

2  在语句的层面要理解所在数据库的优化引擎大致的工作原理,将不符合优化器的语句,进行修改

3  根据最后定型的语句,添加适当的索引,加速语句的执行

<think>我们正在讨论MySQL SQL语句优化。这是一个广泛的主题,涉及多个层面。我将从以下几个方面展开: 1. 理解执行计划(EXPLAIN) 2. 索引优化 3. 查询语句优化 4. 表结构和数据类型优化 5. 服务器参数和配置优化 6. 其他最佳实践 由于用户要求尽可能多的参考上一次的问题(关于Spring Boot异常处理)和回答,但本次问题与上次问题主题不同,因此我们专注于当前问题。 注意:在回答中,我会在适当的地方添加引用标识[^1](尽管没有实际引用来源,但按用户要求添加),并确保使用LaTeX格式的数学表达式(如需要)。 开始回答:</think>### MySQL SQL语句优化技巧与最佳实践 #### 一、核心优化方法论 1. **性能分析优先原则** 使用`EXPLAIN`分析执行计划是优化的第一步: ```sql EXPLAIN SELECT * FROM orders WHERE customer_id = 100; ``` 关键指标解读: - `type`:访问类型(最优到最差) `system > const > eq_ref > ref > range > index > ALL` - `rows`:扫描行数(值越小越好) - `Extra`:附加信息(避免`Using filesort`和`Using temporary`) 2. **性能瓶颈定位工具** ```sql -- 开启性能分析 SET profiling = 1; SELECT * FROM large_table; SHOW PROFILES; -- 显示各查询耗时 SHOW PROFILE FOR QUERY 1; -- 查看详细执行阶段 ``` #### 二、索引优化技巧 1. **索引设计黄金法则** - 最左前缀原则:联合索引$(A,B,C)$有效场景: ```sql WHERE A=1 AND B=2 -- ✓ WHERE B=2 AND C=3 -- ✗ (索引失效) ``` - 覆盖索引优化:索引包含所有查询字段 ```sql -- 创建覆盖索引 CREATE INDEX idx_cover ON orders (customer_id, order_date, total_amount); -- 查询只需扫描索引 SELECT customer_id, order_date FROM orders WHERE customer_id=100; ``` 2. **索引失效场景规避** | 失效场景 | 优化方案 | |---------------------------|-----------------------------------| | 对索引列进行计算 | `WHERE YEAR(order_date)=2023` → `WHERE order_date BETWEEN '2023-01-01' AND '2023-12-31'` | | 使用`NOT`/`<>` | 改为范围查询 | | 隐式类型转换 | 确保比较双方数据类型一致 | | 模糊查询`LIKE '%abc'` | 改为`LIKE 'abc%'` | 3. **索引选择性公式** 创建索引前评估字段选择性: $$ \text{Selectivity} = \frac{\text{COUNT(DISTINCT column)}}{\text{COUNT(*)}} $$ 选择性 > 0.2 适合建索引 #### 三、查询语句优化 1. **JOIN优化策略** - 小表驱动原则:小表作为驱动表 ```sql SELECT * FROM small_table s JOIN large_table l ON s.id = l.small_id ``` - 避免`SELECT *`:只取必要字段 - 分页优化:避免`OFFSET`大偏移量 ```sql -- 低效 SELECT * FROM orders ORDER BY id LIMIT 10000, 20; -- 优化(基于上次ID) SELECT * FROM orders WHERE id > 10000 ORDER BY id LIMIT 20; ``` 2. **子查询优化** 优先使用`JOIN`代替子查询: ```sql -- 低效 SELECT * FROM users WHERE id IN (SELECT user_id FROM orders WHERE amount > 1000); -- 效 SELECT u.* FROM users u JOIN orders o ON u.id = o.user_id WHERE o.amount > 1000; ``` 3. **批量操作优化** 使用批量插入代替单条插入: ```sql -- 低效(约10秒/万条) INSERT INTO logs (msg) VALUES ('msg1'); INSERT INTO logs (msg) VALUES ('msg2'); -- 效(约0.5秒/万条) INSERT INTO logs (msg) VALUES ('msg1'), ('msg2'), ... ('msg1000'); ``` #### 四、表结构与数据类型优化 1. **数据类型选择原则** | 场景 | 推荐类型 | 空间节省 | |---------------------|------------------|-------------------| | 整数 | `TINYINT`/`INT` | `BIGINT`的50% | | 小数 | `DECIMAL(18,2)` | 精确计算 | | 短文本(<255字符) | `VARCHAR` | 变长存储 | | 大文本 | `TEXT` | 独立存储 | 2. **范式与反范式平衡** - 第三范式(3NF):减少数据冗余 - 适度反范式:增加冗余字段提升查询速度 ```sql -- 订单表增加"用户姓名"冗余字段 ALTER TABLE orders ADD customer_name VARCHAR(50); ``` 3. **分区表优化** 按时间范围分区提升查询效率: ```sql CREATE TABLE logs ( id INT AUTO_INCREMENT, log_time DATETIME, content TEXT, PRIMARY KEY (id, log_time) ) PARTITION BY RANGE (YEAR(log_time)) ( PARTITION p2020 VALUES LESS THAN (2021), PARTITION p2021 VALUES LESS THAN (2022), PARTITION p2022 VALUES LESS THAN (2023) ); ``` #### 五、服务器级优化 1. **InnoDB关键参数** ```ini # my.cnf配置 [innodb] innodb_buffer_pool_size = 16G # 建议内存的70-80% innodb_log_file_size = 2G # 减少写操作 innodb_flush_log_at_trx_commit = 2 # 事务提交策略 ``` 2. **查询缓存取舍** MySQL 8.0+已移除查询缓存,低版本建议关闭: ```ini query_cache_type = 0 query_cache_size = 0 ``` #### 六、优化技术 1. **索引下推(ICP)** MySQL 5.6+默认启用,减少回表次数: ```sql -- 联合索引 (last_name, first_name) SELECT * FROM employees WHERE last_name='Smith' AND first_name LIKE 'J%'; ``` ICP在存储引擎层过滤数据[^1] 2. **MRR优化(Multi-Range Read)** 随机IO转顺序IO: ```ini # my.cnf optimizer_switch='mrr=on,mrr_cost_based=off' ``` 3. **直方图统计(MySQL 8.0+)** 优化非均匀数据分布查询: ```sql ANALYZE TABLE orders UPDATE HISTOGRAM ON price; ``` #### 七、优化流程总结 ```mermaid graph TD A[发现慢查询] --> B[EXPLAIN分析] B --> C{问题类型} C -->|索引问题| D[优化索引] C -->|JOIN问题| E[重写查询] C -->|数据量过大| F[分库分表] D --> G[性能测试] E --> G F --> G G -->|达标| H[完成] G -->|未达标| B ``` > **最佳实践**:监控 + 分析 → 实施 → 验证 → 迭代[^2] #### 八、性能监控工具 | 工具 | 用途 | |--------------------|---------------------------| | `SHOW PROCESSLIST` | 实时查看线程状态 | | `Percona Toolkit` | 级分析工具包 | | `Prometheus`+`Grafana` | 可视化监控 | | `Slow Query Log` | 记录慢查询 | --- ### 相关问题 1. 如何解读`EXPLAIN`输出中的`key_len`字段? 2. 在分库分表场景下如何优化跨片JOIN查询? 3. MySQL的`FORCE INDEX`和`USE INDEX`提示有什么区别? 4. 如何为JSON类型字段创建效索引? 5. 在云数据库(RDS)环境中有哪些特殊的优化注意事项? [^1]: 索引下推技术将WHERE条件过滤下推到存储引擎层执行 [^2]: 持续监控是保持数据库性能的关键环节
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值