Mysql 分区表

分区表是一种优化大数据管理的技术,通过逻辑上分隔数据来提高查询效率和管理便捷性。常见使用场景包括处理大表、优化索引和数据备份。分区类型包括Range、List、Hash和多列分区,而子分区能进一步细化管理。然而,分区表也可能带来额外的开销,如NULL值处理、过多分区影响筛选效率及高昂的维护成本。

1. 什么是分区表

首先分区表是一个独立的逻辑表,但是底层由很多物理子表组成,从底层的文件系统来看,每个分区表都有一个使用#分割命名的表文件。

例如下面的逻辑表sales;

create table sales(order_date datetime not null)
engine=InnoDB partition by range(year(order_date)) (
	partition p_2009 values less than (2010),
    partition p_2010 values less than (2011),
    partition p_catcall values less than maxvalue
);

insert into sales values
('2009/01/01 00:00'),
('2010/01/01 00:00'),
('2011/01/01 00:00'),
('2012/01/01 00:00')
;
  • 查看表存储位置和文件系统结构:
show global variables like "%datadir%";
  • 查看分区信息

select * from sales partition (p_2010);

用户在执行查询的时候,优化器会根据分区定义过滤那些没有我们需要数据的分区,这样查询就不需要扫描所有分区了,只需要查询包含需要数据的分区即可。

explain select * from sales where order_date ='2010/01/01 00:00';

2. 分区表常见使用场景

  • 表非常大以至于无法全部放在内存中,或者只有最后部分有热点数据,其他均为历史数据。
  • Innodb单个索引的互斥访问十分严重的时候,可以利用分区表避免这个性能瓶颈
  • 数据量十分庞大的情况下,数据的备份和恢复(因为单个分区表可以单独备份和恢复,这样对于大量数据只需要备份当天或者当月的数据即可,数据恢复也可以只恢复某个分区的数据)

3. 在分区表上执行增删改查会发生什么?

  • SELECT查询

分区层先打开并锁住所有底层表,优化器会先判断是否可以过滤部分分区,然后再调用存储引擎接口访问各个分区的数据。

  • INSERT/UPDATE/DELETE

也是在分区曾先打开并锁住所有底层表,确定要处理的数据在哪个分区,然后做相应的处理操作

上述操作都会在分区层先打开并锁住底层表,但这并不是说分区表在处理过程中是锁住全表的,如果存储引擎能够自己实现行级表,则会在分区层释放掉对应表锁。

4. 分区表的类型

  • Range分区
  • LIST分区

列值匹配一个离散集合来进行分区。示例如下:

#cid代表商品类别ID
create table test(id int, cid int) partition by list(cid)
(
    partition p_01 values in (1,3),
    partition p_02 values in (2,4),
);
  • HASH分区

利用数据库自带的hash算法自动帮忙分区。

create table test(id int, cid int) partition by hash(cid) partitions 4;
  • 多列分区

columns关键字允许多个字符串和日期作为分区定义列,同时还允许使用多个列定义一个分区


create table test(a int, b int, c int) partition by range columns(a,b)
(
    partition p_01 values less than (10,10),
    partition p_02 values less than (10,20),
);

4. 子分区

比较重要的分区还有子分区,子分区可以将某一个分区再进行细分,达到进一步有意义的减少分区数据的目的,所以其特别适用大表。

create table sales(order_date datetime not null)
engine=InnoDB partition by range(year(order_date))
subpartition by hash(month(order_date))
subpartitions 12
 (
	partition p_2009 values less than (2010),
    partition p_2010 values less than (2011),
    partition p_catcall values less than maxvalue
);

insert into sales values
('2009/01/01 00:00'),
('2010/01/01 00:00'),
('2011/01/01 00:00'),
('2012/01/01 00:00')
;

 

 

4. 分区表的使用

  • 全表扫描数据,无需索引

可以使用简单的分区方式存放表,不要任何索引,根据分区的规则大致定位出需要的数据的位置,只要能够使用WHERE条件,将数据限制在少数分区中,则效率还是很高的。

  • 索引数据,并分离热点

可以将热点数据放在单独的分区中,让这个分区的数据可以缓存到内存中,这样查询就可以只访问一个很小的分区表,且能够使用索引。

5.分区表的陷进

分区表想要很好的使用,其都是基于两个假设:①查询可以过滤掉很多额外的分区;②分区本身不会带来额外的开销。

  • NULL值可能会导致分区过滤无效

如果列值为null则会导致数据被放到第一个分区,无形中会增加第一个分区数据的大小。解决方案:可以自己建一个永远不会有数据的分区来存放null,比如 p_nulls values less than (0)

  • 分区列和索引列不匹配
  • 选择分区的成本可能很高 

分区越多,筛选的效率越低。实际开发时,一般都需要限制分区的数量,一般来说100个左右的分区是没有问题的。

  • 打开并锁住所有底层表的成本可能很高

打开并锁住底层表是在分区过滤之前发生的,所以其可能会影响到其他正常查询。

  • 维护分区的成本可能很高

重组分区或者修改表分区这类操作都会涉及到数据的复制,可能会很慢,他们都是先创建一个临时分区,然后将数据复制过去,然后再删除原分区。

下一次分享MySQL 分区和分库分表的对比。

### 创建和管理MySQL分区表 #### 1. 分区表的概念 分区表是一种将数据逻辑上存储在一个表中,但在物理上将其拆分成多个部分的技术。这种技术能够有效提高查询性能并简化大规模数据的管理工作[^1]。 --- #### 2. MySQL分区类型概述 MySQL提供了多种类型的分区方式,每种方式适用于不同的场景: - **RANGE分区**: 基于属于某个区间的数据进行划分。 - **LIST分区**: 类似于 RANGE 分区,但是它针对的是离散值列表。 - **HASH分区**: 使用用户定义的表达式的返回值来决定数据分配到哪个分区。 - **KEY分区**: 类似 HASH 分区,不同之处在于 KEY 分区使用 MySQL 自己的哈希函数,并且仅支持基于整数列的操作[^2]。 --- #### 3. 创建分区表的方法 以下是几种常见分区表的创建方法及其语法示例: ##### (1) RANGE 分区 适合用于时间戳或其他有序字段上的分区。 ```sql CREATE TABLE sales ( id INT NOT NULL, sale_date DATE NOT NULL, amount DECIMAL(10, 2) ) PARTITION BY RANGE (YEAR(sale_date)) ( PARTITION p0 VALUES LESS THAN (2020), PARTITION p1 VALUES LESS THAN (2021), PARTITION p2 VALUES LESS THAN (2022), PARTITION p3 VALUES LESS THAN MAXVALUE ); ``` 此语句按照 `sale_date` 的年份进行了范围分区[^3]。 --- ##### (2) LIST 分区 当需要根据特定值集合分割数据时适用。 ```sql CREATE TABLE employees ( emp_id INT NOT NULL, department VARCHAR(20) NOT NULL ) PARTITION BY LIST (department) ( PARTITION dept_sales VALUES IN ('Sales'), PARTITION dept_marketing VALUES IN ('Marketing', 'PR') ); ``` 上述例子展示了如何依据部门名称对员工记录进行分区。 --- ##### (3) HASH 分区 对于均匀分布的需求非常有用。 ```sql CREATE TABLE users ( user_id INT NOT NULL, username VARCHAR(50) NOT NULL ) PARTITION BY HASH(user_id) PARTITIONS 4; ``` 这里指定了四个分区,具体哪一个取决于 `user_id` 的哈希值。 --- ##### (4) KEY 分区 类似于 HASH 分区,但采用内置算法。 ```sql CREATE TABLE orders ( order_id INT NOT NULL AUTO_INCREMENT PRIMARY KEY, customer_name VARCHAR(100) NOT NULL ) PARTITION BY KEY(order_id) PARTITIONS 8; ``` 该命令设置了八个分区,由系统自动计算 hash 函数。 --- #### 4. 查询优化与分区剪枝 如果 SQL 查询条件涉及到了分区键,则 MySQL 可以实现所谓的“分区裁剪”,即只访问那些可能包含所需数据的分区,从而减少 I/O 开销并加速执行过程^。 例如,在上面提到的 `sales` 表中运行如下查询: ```sql SELECT * FROM sales WHERE YEAR(sale_date) = 2021; ``` 由于明确了日期范围,因此只需扫描对应的一个或几个分区即可完成检索操作[^4]。 --- #### 5. 动态维护分区结构 随着业务发展或者历史积累增加,有时我们需要调整现有分区布局。常见的动作包括新增未来时间段的新分片或是移除过期无用的部分。 ##### 添加新分区 继续扩展之前的 `sales` 示例,假设现在要加入代表 2023 年度销售情况的空间: ```sql ALTER TABLE sales ADD PARTITION ( PARTITION p4 VALUES LESS THAN (2023) ); ``` ##### 删除旧有分区 同样还是拿这个案例来说话,假定已经没有必要保留早年的交易详情了就可以这样清理掉它们: ```sql ALTER TABLE sales DROP PARTITION p0; ``` 注意:这些变更均不会影响其他未改动区域内的正常运作状态。 --- ### 总结 通过合理规划和运用各种形式的分区策略,可以极大地改善大型关系型数据库系统的整体表现水平;与此同时也要记得定期审视实际需求变化以便及时作出相应修改措施保持最佳效能。
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值