介绍
索引是通过某种算法,构建出一个数据模型,用于快速找出在某个列中有一特定值的行, 不使用索引,MySQL必须从第一条记录开始读完整个表,直到找出相关的行,表越大,查询数据所花费的时间就越多,如果表中查询的列有一个索引,MySQL能够快速到达一个位置去搜索数据文件,而不必查看所有数据,那么将会节省很大一部分时间。
索引类似一本书的目录,比如要查找student这个单词,可以先找到s开头的页然后向后查找,这个就类似索引。
分类
索引是存储弓擎用来快速查找记录的一种数据结构,按照实现的方式类分,主要有Hash索引和B+Tree索引
按照功能划分分为单列索引、组合索引、全文索引和空间索引,单列索引还分为普通索引、唯一索引和主键索引。
单列索引
一个索引只包含单个列,但一个表中可以有多个单列索引
普通索引
MySQL中基本索引类型,没有什么限制,允许在定义索引的列中插入重复值和空值,纯粹为了查询数据更快一点。
创建
index是索引的关键字
方式一:创建表时添加
index 索引名(列名)
creat table tableName(
content varchar(10);
content1 int primary key;
content2 varchar(10);
index indexName(content) -- 给content列创建索引
);
方式二:直接添加
create index 索引名 on 表名(列名);
create index indexName on tableName(content);
方式三:修改表结构
alter table 表名 add index 索引名(列明);
alter table tableName add index indexName (content);
查看
查看数据库所有索引
select * from mysql.`innodb_index_stats` a where a.`database_name` =‘数据库名’
select * from mysql.`innodb_index_stats` a where a.`database_name` = 'mydatabase0'
查看表中所有索引
select * from mysql.`innodb_index_stats` a where a.`database_name` = '数据库名' and a.table.namelike '%表名%'
select * from mysql.`innodb_index_stats` a where a.`database_name` = 'mydatabase0' and a.table.namelike '%tableName%'
查看表中所有索引
show index from tableName;
删除
删除索引有两种方法:
drop index 索引名 on 表名;
alter table 表名 drop index 索引名;
drop index indexName on tableName ;
alter table tableName drop index indexName;
唯一索引
唯一索引与前面的普通索引类似,不同的就是:索引列的值必须唯一,但允许有空值。如果是组合索引,则列值的组合必须唯一。唯一索引创建时有两种方式。
方式1:创建表的时候直接指定。
unique 索引名(列名);
create table tableName(
sid int primary key ,
card_id varchar (20),
name varchar (20),
unique index_card_id(card_id) -- 给card_id列创建索引
);
方式2:直接创建。
create unique index 索引名 on 表名(列名)
create unique index indexName on tableName(content) ;
方式3:修改表结构(添加索引)
alter table 表名 add unique [索引名] (列名)
alter table tableName add unique indexName (content)
删除
drop index 索引名 on 表名
alter table 表名 drop index 索引名
主键索引
每张表一般都会有自己的主键当我们在创建表时,MySQL会自动在主键列上建立一个索引,这就是主键索引。主键是具有唯一性并 且不允许为NULL,所以他是一种特殊的唯一索引。
组合索引
组合索引也叫复合索引,指的是我们在建立索引的时候使用多个字段,例如同时使用身份证和手机号建立索引,同样的可以建立为普通索引或者是唯一索引。复合索引的使用符合最左原则。
格式
普通索引
create index 索引名 on 表名 (列名1 (length) , 列名2 (length)) ;
唯一索引
create nuique index 索引名 on 表名 (列名1 (length) , 列名2 (length)) ;
全文索引
全文索引的关键字是fulltext
全文索引主要用来查找文本中的关键字,而不是直接与索引中的值相比较,它更像是一个搜索引擎,基于相似度的查询,而不是简单的where语句的参数匹配。
用like + %就可以实现模糊匹配了。like + %在文本比较少时是合适的,但是对于大量的文本数据检索,是不可想象的。全文索引在大量的数据面前,能比like+%快N倍,速度不是一个数量级,但是全文索引可能存在精度问题。
全文索弓|的版本、存储引擎、数据类型的支持情况
- MySQL 5.6以前的版本,只有MyISAM存储弓|擎支持全文索引;
- MySQL 5.6及以后的版本,MyISAM和InnoDB存储弓|擎均支持全文索引;
- 只有字段的数据类型为char、varchar、 text 及其系列才可以建全文索引;
- 在数据量较大时候,现将数据放入一个没有全局索弓|的表中,然后再用create index创建ulltext索引,要比先为一张表建立ultext然后再将数据写入的速度快很多;
- 测试或使用全文索引时,要先看一下自己的MySQL版本、存储引擎和数据类型是否支持全文索引。
MySQL中的全文索引,有两个变量,最小搜索长度和最大搜索长度,对于长度小于最小搜索长度和大于最大搜索长度的词语,都不会被索引。通俗点就是说,想对一个词语使用全文索引搜索,那么这个词语的长度必须在以上两个变量的区间内。这两个的默认值可以使用以下命令查看
show variables like '%ft%' ;
创建全文检索
创建表的时候添加全文索引
create table t tabkeName(
content varchar (1000),
content1 int primary key auto increment,
content2 varchar(255),
content3 date date,
fulltext (content) -- 创建全文检索
);
修改表结构添加全文索引
alter table tabkeName add fulltext indexName (content)
直接添加全文索引
create fulltext index indexName on tableName (content) ;
使用全文索引
使用全文索引和常用的模糊匹配使用like + %不同,全文索引有自己的语法格式,使用match和against关键字。
match (列名1,列名2...) against(关键词)
select * from tableName where match (content) against('yo'); -- 没有结果,单词数需要大于等于3
select * from tableName where match (content) against('you'); -- 有结果
空间索引
- MySQL在5.7之后的版本支持了空间索引,而且支持OpenGIS几何数据模型,
- 空间索引是对空间数据类型的字段建立的索引,MYSQL中的空间数据类型有4种,分别是GEOMETRY、POINT、LINESTRING、POLYGON。
- MYSQL使用SPATIAL关键字进行扩展,使得能够用于创建正规索引类型的语法创建空间索引。
- 创建空间索引的列,必须将其声明为NOT NULL。
- 空间索引一般用的比较少。
空间类型
类型 | 含义 | 说明 |
Geometry | 空间数据 | 任何一种空间类型 |
Point | 点 | 坐标值 |
LineString | 线 | 有一系列点连接而成 |
Polygon | 多边形 | 由多条线组成 |
案例
create table shop_info (
id primary key auto_increment,
shop name varchar (64) not nu11,
geom_point geometry not null.
spatial key geom_index (geom_point)
);
原理
- 一般来说,索引本身也很大,不可能全部存储在内存中,因此索引往往以索引文件的形式存储的磁盘上。
- 索引查找过程中就要产生磁盘I/O消耗,相对于内存存取,I/O存取的消耗要高几个数量级,所以评价一个数据结构作为索引的优劣最重要的指标就是在查找过程中磁盘I/O操作次数的渐进复杂度。
- 索引的结构组织要尽量减少查找过程中磁盘I/0的存取次数。
相关算法
Hash算法
优点:通过字段的值计算的hash值,定位数据非常快。
缺点:不能进行范围查找,因为散列表中的值是无序的,无法进行大小的比较。
二叉树
特性:分为左子树、右子树和根节点,左子树比根节点值要小,右子树比根节点值要大。
缺点:有可能产生不平衡 类似于链表的结构。
平衡二叉树
特点
- 它的左子树和右子树都是平衡二叉树
- 左子树比中间小,右子树比中间值
- 左子树和右子树的深度之差的绝对值不超过1
缺点
- 插入操作需要旋转
- 支持范围查询,但回旋查询效率较低,比如要查找大于8的,会回旋到父节点7、10。 .
- 如果存放几百条数据的情况下,树高度越高,查询效率会越慢。
BTREE树
目前大部分数据库系统及文件系统都采用B-Tree或其变种B+Tree作为索引结构,Btree结构可以有效的解决之前的相关算法遇到的问题。
MyISAM引擎使用B+Tree作为索引结构,叶节点的data域存放的是数据记录的地址。
InnoDB的叶节点的data域存放的是数据,相比MyISAM效率要高一-些, 但是比较占硬盘内存大小。

其它
优点
- 大大加快数据的查询速度
- 使用分组和排序进行数据查询时,可以显著减少查询时分组和排序的时间
- 创建唯一索引,能够保证数据库表中每一行数据的唯一性
- 在实现数据的参考完整性方面,可以加速表和表之间的连接
缺点
- 创建索引和维护索引需要消耗时间,并且随着数据量的增加,时间也会增加
- 索引需要占据磁盘空间
- 对数据表中的数据进行增加,修改,删除时,索引也要动态的维护,降低了维护的速度
原则
- 更新频繁的列不应设置索引
- 数据量小的表不要使用索引(毕竟总共2页的文档,还要目录吗? )
- 重复数据多的字段不应设为索引(比如性别,只有男和女,一般来说:重复的数据超过百分之15就不该建索引)
- 首先应该考虑对where和orderby涉及的列上建立索引