在Azure Synapse Analytics(专用 SQL 池,Azure SQL DW)中对表进行分区

原创

已于 2022-08-02 11:09:41 修改 · 720 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#大数据 #azure #Azure SQL DW #数据仓库 #表分区

于 2022-07-16 16:15:51 首次发布

本文详细介绍了在Azure Synapse Analytics的专用SQL池中如何利用表分区来加速数据加载和查询，通过案例展示了如何创建分区表、优化数据分布以及性能对比。

（四）Azure SQL DW中的分区语法

（五）实战案例

1. 表中现有数据

2. 重构建表语句

3. 保留原表并与新建表后的SQL统计作耗时对比

（1）未优化重新建表前

（2）优化后

（一）前言

SQL Server、Azure SQL 数据库和Azure SQL 托管实例支持表和索引分区。已分区表和索引的数据分为可以分布在数据库中的多个文件组或存储在单个文件组中的单位。当文件组中存在多个文件时，数据使用比例填充算法跨文件分布。数据是按水平方式分区的，因此多组行映射到单个的分区。单个索引或表的所有分区都必须位于同一个数据库中。对数据进行查询或更新时，表或索引将被视为单个逻辑实体。本文重点探讨在专用SQL池中新建分区表。

表分区在 Azure Synapse Analytics 的专用SQL池中也可用，语法存在一些差异。

重要

默认情况下，数据库引擎最多支持 15，000 个分区。在早于 SQL Server 2012 (11.x) 的版本中，默认情况下，分区数限制为 1000 个。

（二）什么是表分区？

1. 表分区定义

表分区可将数据分成更小的数据组。大多数情况下，表分区都是根据日期列进行创建。所有专用 SQL 池表类型（包括聚集列存储、聚集索引和堆）都支持分区。所有分布类型（包括哈希分布或轮循机制分布）也都支持分区。

分区可能有利于数据维护和查询性能。分区是对二者都有利还是只对其中之一有利取决于数据加载方式，以及是否可以将同一个列用于两种目的，因为只能根据一个列来进行分区。

2. 对加载的好处

在专用 SQL 池中进行分区的主要好处是通过分区删除、切换和合并来提高数据加载效率和性能。大多数情况下，数据是根据日期列来分区的，而日期列与数据加载到 SQL 池中的顺序密切相关。使用分区来维护数据的最大好处之一是可以避免事务日志记录。虽然直接插入、更新或删除数据可能是最直接的方法，但如果在加载过程中使用分区，则只需付出一点点思考和努力就可以大大改进性能。

可以使用分区切换来快速删除或替换表的一部分。例如，销售事实表可能仅包含过去 36 个月的数据。在每个月月底，便从表删除最旧月份的销售数据。删除该数据时，可以使用 delete 语句删除最旧月份的数据。

但是，使用 delete 语句逐行删除大量数据可能需要极长的时间，同时还会有执行大型事务的风险，这些大型事务在出现错误时进行回退的时间会很长。更理想的方式是删除最旧的数据分区。如果在某种情况下删除各个行可能需要数小时，则删除整个分区可能只需数秒钟。

3. 对查询的好处

分区还可用来提高查询性能。对分区数据应用筛选器的查询可以将扫描限制在合格的分区上。此筛选方法可以避免全表扫描且仅扫描数据的一个较小子集。引入聚集列存储索引以后，谓词消除的性能好处不再那么明显，但在某些情况下，可能会对查询有好处。

例如，如果使用销售日期字段将销售事实表分区成 36 个月，以销售日期进行筛选的查询便可以跳过对不符合筛选条件的分区的搜索。

（三）分区大小

虽然在某些情况下可以使用分区来改进性能，但如果在创建表时使用过多分区，则在某些情况下可能会降低性能。对于聚集列存储表，尤其要考虑到这一点。

若要使数据分区有益于性能，务必了解使用数据分区的时机，以及要创建的分区的数目。对于多少分区属于分区过多并没有简单的硬性规定，具体取决于数据，以及要同时加载多少分区。一个成功的分区方案通常只有数十到数百的分区，没有数千个。

在“聚集列存储”表上创建分区时，务请考虑每个分区可容纳的行数。对于聚集列存储表来说，若要进行最合适的压缩并获得最佳性能，则每个分布和分区至少需要 1 百万行。在创建分区之前，专用 SQL 池已将每个表细分到 60 个分发中。

向表添加的任何分区都是基于在后台创建的分布。根据此示例，如果销售事实数据表包含 36 个按月进行的分区，并假设专用 SQL 池有 60 个分布区，则销售事实数据表每个月应包含 6000 万行，或者在填充所有月份后包含 21 亿行。如果表包含的行数少于每个分区行数的最小建议值，可考虑使用较少的分区，以增加每个分区的行数。

最低0.47元/天解锁文章