MySQL如何建索引（面试题）

原创于 2025-05-19 12:31:07 发布 · 598 阅读

CC 4.0 BY-SA版权

文章标签：

在数据库的世界里，索引就像一本书的目录。它能让查询语句快速找到需要的数据行，而不需要扫描整个表。对于那些从事数据相关工作的朋友们，比如CDA（Certified Data Analyst）持证者来说，掌握MySQL索引构建的知识是至关重要的。

一、什么是索引

（一）索引的基本概念

索引是一种特殊的文件（InnoDB数据表上的索引是表空间的一个组成部分），它们包含着对数据表里所有记录的引用指针。更形象地说，索引就像是图书馆里的书目索引，能够快速定位到对应的书籍所在的位置。在MySQL中，当我们创建一个索引时，实际上是在为数据表中的某一列或多列创建一种结构，这种结构可以让MySQL在执行查询操作时更快地获取数据。

例如，有一个用户信息表user_info，其中包含用户的姓名、年龄、性别等字段。如果我们经常根据姓名来查找用户信息，那么就可以在name字段上创建索引。这样，当执行类似SELECT * FROM user_info WHERE name = '张三'这样的查询语句时，MySQL就可以直接利用索引来快速定位到满足条件的记录，而不需要遍历整个表。

（二）索引的类型

普通索引
- 这是最基本的索引类型，没有任何限制。它可以加速查询的速度，并且可以在多个列上创建普通索引。例如：

CREATE INDEX idx_name ON user_info(name);

这条语句就在user_info表的name字段上创建了一个名为idx_name的普通索引。
2. 唯一索引

索引列的值必须唯一，但允许有空值。这对于保证某些字段的唯一性是非常有用的。例如，在用户登录系统中，用户的用户名应该是唯一的。可以使用以下语句创建唯一索引：

CREATE UNIQUE INDEX idx_username ON login_user(username);

主键索引
- 是一种特殊的唯一索引，不允许有空值。它是一个表中的标识符，用于唯一确定表中的每一行记录。每个表只能有一个主键索引，并且主键索引会自动创建。例如：

CREATE TABLE employee(
id INT PRIMARY KEY,
name VARCHAR(50),
age INT
);

在这个表定义中，id字段作为主键，同时也会自动创建主键索引。
4. 全文索引

主要用于全文搜索，适用于大文本字段。它能够在较大的文本内容中快速定位相关的关键词。例如，在一个文章管理表article中，如果想要对文章内容进行全文搜索，可以创建全文索引：

ALTER TABLE article ADD FULLTEXT INDEX idx_content(content);

不过需要注意的是，只有MyISAM存储引擎支持全文索引（在较新的MySQL版本中，InnoDB也支持了）。

二、索引的工作原理

（一）B+树索引结构

概述
- 在MySQL中，最常用的索引结构是B+树。以InnoDB存储引擎为例，它的B+树索引的特点是：所有的叶子节点包含了全部元素的信息，指向实际的数据记录；非叶子节点只包含键值。例如，我们有一个商品表product，其主键id是按顺序递增的整数，并且在id字段上创建了主键索引。这个主键索引的B+树结构如下图所示（简化示意）：

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传
假设我们要查询id=10的商品信息，从根节点开始查找。首先比较10与根节点的键值，确定向左子树或者右子树继续查找，直到找到包含10这个键值的叶子节点，然后就可以获取到该商品的完整信息。
2. 范围查询的优势

B+树索引非常适合范围查询。因为它的叶子节点是有序链接的，所以当我们执行SELECT * FROM product WHERE id BETWEEN 5 AND 15这样的范围查询时，可以直接定位到起始键值所在的叶子节点，然后沿着叶子节点的链表顺序读取满足条件的记录，而不需要回溯到非叶子节点重新查找。

（二）哈希索引结构

适用场景
- 哈希索引主要适用于精确匹配查询。它是通过哈希函数将索引列的值映射为一个哈希值，然后将哈希值存储在一个哈希表中。例如，在MEMORY存储引擎中，默认使用的索引就是哈希索引。如果我们在MEMORY表中创建了哈希索引：

CREATE TABLE memory_table(
id INT,
data VARCHAR(50),
KEY USING HASH (id)
)ENGINE=MEMORY;

当执行SELECT * FROM memory_table WHERE id = 100这样的查询时，MySQL会先计算出100的哈希值，然后直接在哈希表中查找对应的记录地址。
2. 局限性

哈希索引不支持范围查询。因为在哈希索引中，数据是无序的，无法通过相邻的哈希值来确定原始数据的大小关系。例如，不能用哈希索引执行SELECT * FROM memory_table WHERE id > 100这样的范围查询。

三、如何创建索引

（一）创建索引的时机

业务需求分析
- 在创建索引之前，首先要明确业务需求。例如，在一个电商系统中，订单表order中可能会频繁地根据用户ID、订单状态、下单时间等字段进行查询。如果发现某个查询语句的执行效率很低，而且涉及到这些字段的查询频率很高，那么就可以考虑在这几个字段上创建索引。
性能测试
- 对于一些大型项目或者复杂的数据表，不能盲目地创建索引。应该先进行性能测试，观察在没有索引的情况下查询语句的执行情况。可以通过MySQL自带的EXPLAIN命令来查看查询计划。例如：

EXPLAIN SELECT * FROM order WHERE user_id = 1000;

这条命令会返回关于查询语句的一些信息，如是否使用了索引、预计扫描的行数等。如果发现扫描的行数过多，可能就需要创建索引来优化查询性能。

（二）创建索引的语法

在创建表时创建索引
- 可以在创建表的时候直接定义索引。例如：

CREATE TABLE customer(
id INT AUTO_INCREMENT PRIMARY KEY,
name VARCHAR(50),
email VARCHAR(100) UNIQUE,
INDEX idx_age(age)
);

这里定义了一个主键索引、一个唯一索引和一个普通索引。主键索引自动创建在id字段上，email字段上的唯一索引确保了邮箱地址的唯一性，age字段上的普通索引可以加速根据年龄查询顾客信息的操作。
2. 在已有表上添加索引

如果表已经存在，可以使用ALTER TABLE语句来添加索引。例如：

ALTER TABLE product ADD INDEX idx_price(price);

这将在product表的price字段上创建一个名为idx_price的普通索引。如果是创建唯一索引，则可以使用：

ALTER TABLE login_user ADD UNIQUE INDEX idx_email(email);

多列索引
- 当查询条件涉及多个字段时，可以创建多列索引。例如，有一个销售记录表sales_record，经常根据产品类别和销售日期进行查询。可以创建一个多列索引：

CREATE INDEX idx_category_date ON sales_record(category, sale_date);

但是要注意，多列索引遵循最左前缀原则。也就是说，如果创建了(category, sale_date)这样的多列索引，那么在查询时，如果使用WHERE category = 'A'或者WHERE category = 'A' AND sale_date = '2023 - 01 - 01'，都可以利用这个索引。但是如果只使用WHERE sale_date = '2023 - 01 - 01'，则无法利用该索引。

（三）删除索引

语法
- 如果不再需要某个索引，可以使用DROP INDEX语句来删除。例如：

DROP INDEX idx_age ON customer;

这将删除customer表上的idx_age索引。如果是删除唯一索引，也可以使用相同的语法。

四、索引的维护

（一）重建索引

原因
- 随着数据的不断插入、更新和删除，索引可能会变得碎片化。这就像是一个图书馆的书架，随着时间的推移，由于书籍的频繁借阅和归还，书架上的书籍摆放变得杂乱无章，影响查找效率。同样，索引的碎片化会导致查询性能下降。例如，在一个高并发写入的订单系统中，订单表order的索引可能会逐渐出现碎片化问题。
方法
- 可以使用ALTER TABLE语句来重建索引。例如：

ALTER TABLE order REBUILD INDEX idx_order_status;

这将重建order表上idx_order_status索引，使其恢复到最佳状态。

（二）优化索引选择

避免过度索引
- 创建过多的索引会影响数据表的写入性能。因为每次插入、更新或者删除数据时，都需要对相应的索引进行维护。例如，在一个用户行为日志表user_log中，如果创建了太多的索引，当有大量的日志数据写入时，索引的维护开销会非常大，导致写入速度变慢。所以，在创建索引时要权衡查询性能和写入性能。
评估索引的有效性
- 定期评估索引的有效性是非常重要的。可以使用SHOW INDEX语句来查看索引的相关信息，如索引名、列名、非唯一性等。还可以结合业务逻辑和查询模式，判断哪些索引是真正有用的，哪些是可以优化或者删除的。

五、索引的实际应用案例

（一）电商平台的查询优化

背景
- 在一个大型电商平台上，商品信息表product包含了大量的商品数据，包括商品名称、价格、库存数量、所属分类等字段。随着平台的发展，商品数量不断增加，用户查询商品的速度逐渐变慢。
解决方案
- 经过分析，发现用户经常根据商品名称、价格范围和所属分类来查询商品。于是，在product表的name、price和category字段上创建了索引。例如：

CREATE INDEX idx_name ON product(name);
CREATE INDEX idx_price ON product(price);
CREATE INDEX idx_category ON product(category);

同时，针对一些组合查询，如根据商品名称和所属分类查询，创建了多列索引：

CREATE INDEX idx_name_category ON product(name, category);

经过这些索引的创建，查询商品的速度得到了显著提高。对于CDA持证者来说，他们可以从数据分析的角度出发，通过对用户查询行为的数据挖掘，找出哪些字段是查询的关键因素，从而更好地指导索引的创建。

（二）社交平台的好友推荐系统

背景
- 社交平台的用户量巨大，好友推荐功能是基于用户的兴趣爱好、地理位置等信息来进行的。好友关系表friendship记录了用户之间的关系，包含用户ID、被推荐人ID、推荐依据（如共同兴趣标签等）等字段。
解决方案
- 为了提高好友推荐的速度，可以在friendship表的user_id、recommend_tag（推荐依据标签）字段上创建索引。例如：

CREATE INDEX idx_user_recommendtag ON friendship(user_id, recommend_tag);

当需要根据用户ID和特定的兴趣标签来推荐好友时，就可以快速定位到满足条件的记录。并且，CDA持证者可以进一步分析用户的行为数据，如用户的好友互动频率等，来优化索引的选择，使得好友推荐更加精准和高效。

x_user_recommendtag ON friendship(user_id, recommend_tag);

当需要根据用户ID和特定的兴趣标签来推荐好友时，就可以快速定位到满足条件的记录。并且，CDA持证者可以进一步分析用户的行为数据，如用户的好友互动频率等，来优化索引的选择，使得好友推荐更加精准和高效。


总之，索引在MySQL中扮演着非常重要的角色。正确地创建和维护索引，能够大大提高查询效率，对于像CDA持证者这样的数据专业人士来说，掌握索引的相关知识有助于更好地管理和优化数据库，为各种应用场景提供强有力的支持。就如同一位厨师精心挑选食材一样，我们要根据不同的“菜品”（业务需求），恰当地选择和使用索引这个“调味料”，让我们的数据库运行得更加顺畅。