MySQL表分区

最新推荐文章于 2025-03-04 22:22:51 发布

原创最新推荐文章于 2025-03-04 22:22:51 发布 · 174 阅读

CC 4.0 BY-SA版权

文章标签：

27 篇文章

订阅专栏

分区表作为大型数据集管理的有效工具，通过将数据按粒度分布于不同物理表，简化数据维护，加速查询效率，尤其适用于历史数据管理和热点数据分离。然而，分区表也存在限制，如分区数量上限、维护成本及数据分布不均等问题。

对用户来说，分区表是一个独立的逻辑表，但是底层由多个物理子表组成。
分区的一个主要目的是将数据按照一个较粗的粒度分在不同的表中，这样可以将相关的数据放在一起，另外，如果想一次批量删除整个分区的数据也会变得很方便。
在下面的场景中,分区可以起到非常大的作用:

SELECT查询:当查询一个分区表的时候，分区表先打开并锁住所有的底层表，优化器先判断是否可以过滤部分分区，然后再调用对应的存储引擎接口访问各个分区的数据。
INSERT操作:当写入一条记录时，分区层先打开并锁住所有的底层表，然后确定哪个分区接收这条记录，再将记录写入对应的底层表。
DELETE操作:当删除一条记录时，分区层先打开并锁住所有的底层表，然后确定数据对应的分区，最后对相应底层表进行删除操作。
UPDATE操作:当更新一条记录时，分区层先打开并锁住所有的底层表，MYSQL确定需要更新的记录在哪个分区，然后取出数据并更新，再判断更新后的数据应该放在哪个分区，最后对底层表进行

在数据量超大的时候，B-Tree索引就无法起作用了，因为产生大量的随机I/O。索引维护的代价也非常高。
分区可以看做是索引的最初形态，以代价非常小的方式定位到需要数据在哪一片区域。在这片区域中，你可以顺序扫描，可以建索引，还可以将数据存到内存中。
一般有下面两个策略:

NULL值会使分区过滤无效
第一个分区是一个特殊的分区,假设按照PARTITION BY RANGE YEAR(order _date)分区，那么所有order_date为null或者一个非法值得时候，记录都会被存放到第一个分区中。如果第一个分区非常大，特别是当使用"全量扫描数据，不要任何索引"的策略时，代价会非常大。为了避免这种情况，可以创建一个“无用”分区的第一个分区。这样如果插入数据都是有效的，那么第一个分区就是空白的。这样即使要检查第一个分区，那么代价也非常小。
在MySQL5.5中就不需要这个技巧了，因为可以直接使用列本身:PARTITION BY RANGE COLUMNS(order_date)。所以这个案例最好的解决方法是能够使用MySQL 5.5的这个语法。
分区列和索引列不匹配
假设在列a上定义了索引，在列b上进行分区。因为每个分区有其独立的索引，索引扫描列a上的索引时就需要扫描每个分区内对应的索引。
选择分区的成本可能非常高，每次写入数据时都需要扫描所有的分区定义大的列表来找到正确答案，所以随着分区增多，成本增高。根据经验，对大多数系统来说，100个左右的分区是没有问题的。
打开并锁住所有底层表的成本可能非常高。
维护分区的成本可能很高。