POSTGRESQL区域设置对索引和排序的影响

文章探讨了POSTGRESQL中区域设置如何影响索引和排序,特别是ORDER BY、文本比较、模式匹配和to_char函数。创建数据库时设定的LC_COLLATE和LC_CTYPE决定了字符串排序顺序和字符分类。非'C'或'POSIX'区域可能影响性能,例如在LIKE子句的索引使用上。通过示例展示了不同区域设置下,如何通过特定操作符类使索引在非标准区域设置中生效。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

--区域支持是在使用 initdb 创建一个数据库集群的时候自动初始化的,但可在创建数据库时单独指定


--区域设置特别影响下面的 SQL 特性
* 查询中使用 ORDER BY 或者对文本数据的标准比较操作符进行排序
* upper, lower 和 initcap 函数
* 模式匹配运算符(LIKE, SIMILAR TO, 以及 POSIX-风格的正则表达式); 区域影
响大小写不敏感的匹配和通过字符分类正则表达式的字符分类。
* to_char 函数族
* 使用 LIKE 子句的索引能力




--其中有两个参数可以参考
LC_COLLATE 字符串排序顺序
LC_CTYPE 字符分类(什么是字母?是否区分大小写?)
--LC_COLLATE 和 LC_CTYPE 的设置都是在数据库创建时决定的, 不能被改变除非创建新的数据库


PostgreSQL 里使用非 C 或者 POSIX 区域的缺点是性能影响




--查询服务器支持的区域
select * from pg_collation;


--查看当前数据库的区域设置
show lc_ctype;
show lc_collate;




--下面针对不同的区域查看对索引的影响
--创建数据库,指定区域
createdb test_collcate --lc-collate=C --lc-ctype=C -T template0


test_collcate=# show lc_ctype;
show lc_collate; lc_ctype 
----------
 C
(1 row)


test_collcate=# show lc_collate;
 lc_collate 
------------
 C
(1 row)


--创建测试数据
test_collcate=# create table t3 (id int ,user_name varchar(50));
CREATE TABLE
test_collcate=# insert into t3 select m,'username'||m from generate_series(1,1000000) m;
INSERT 0 1000000
test_collcate=# create index idx_t3_user_name on t3(user_name);   
CREATE INDEX


--可以发现其使用了索引
test_collcate=# explain analyze select count(*) from t3 where user_name like 'username123%';
                                                              QUERY PLAN                                                               
---------------------------------------------------------------------------------------------------------------------------------------
 Aggregate  (cost=192.92..192.93 rows=1 width=0) (actual time=1.458..1.458 rows=1 loops=1)
   ->  Index Only Scan using idx_t3_user_name on t3  (cost=0.42..192.67 rows=100 width=0) (actual time=0.157..1.313 rows=1111 loops=1)
         Index Cond: ((user_name >= 'username123'::text) AND (user_name < 'username124'::text))
         Filter: ((user_name)::text ~~ 'username123%'::text)
         Heap Fetches: 1111
 Total runtime: 28.043 ms
 
 
 
 
 --在另外一个数据库的区域设置如下
 postgres=# show lc_ctype;
 lc_ctype 
----------
 zh_CN
(1 row)


Time: 0.250 ms
postgres=# show lc_collate;
 lc_collate 
------------
 zh_CN
 
 --测试数据如下
 postgres=# \d+ t2;
                            Table "public.t2"
  Column   |  Type   | Modifiers | Storage  | Stats target | Description 
-----------+---------+-----------+----------+--------------+-------------
 id        | integer |           | plain    |              | 
 user_name | text    |           | extended |              | 
Indexes:
    "idx_t2_user_name" btree (user_name)
Has OIDs: no


--可以看到其不能使用索引
postgres=# explain analyze select count(*) from t2 where user_name like 'rudy1111111111111%'; 
                                               QUERY PLAN                                               
--------------------------------------------------------------------------------------------------------
 Aggregate  (cost=3583.31..3583.32 rows=1 width=0) (actual time=42.738..42.739 rows=1 loops=1)
   ->  Seq Scan on t2  (cost=0.00..3583.26 rows=20 width=0) (actual time=42.734..42.734 rows=0 loops=1)
         Filter: (user_name ~~ 'rudy1111111111111%'::text)
         Rows Removed by Filter: 200101
 Total runtime: 42.805 ms
(5 rows)


--如果数据库不使用标准的"C"区域设置,对于期望使LIKE 或者 POSIX 正则表达式,使用索引,
--需要指定text_pattern_ops,varchar_pattern_ops 和 bpchar_pattern_ops 操作符类分别支持在 text, varchar 和 char 类型上的 B-tree 索引。 


postgres=# create index idx_t3_user_name on t2(user_name varchar_pattern_ops);   
CREATE INDEX
Time: 450.281 ms


--可以使用索引
postgres=# explain analyze select count(*) from t2 where user_name like 'rudy1111111111111%';
                                                           QUERY PLAN                                                            
---------------------------------------------------------------------------------------------------------------------------------
 Aggregate  (cost=8.49..8.50 rows=1 width=0) (actual time=0.183..0.184 rows=1 loops=1)
   ->  Index Only Scan using idx_t3_user_name on t2  (cost=0.42..8.44 rows=20 width=0) (actual time=0.179..0.179 rows=0 loops=1)
         Index Cond: ((user_name ~>=~ 'rudy1111111111111'::text) AND (user_name ~<~ 'rudy1111111111112'::text))
         Filter: (user_name ~~ 'rudy1111111111111%'::text)
         Heap Fetches: 0
 Total runtime: 0.275 ms
 
 
 --注意对于等于操作,如果字段上有索引,其是可以使用索引的

### 如何在 PostgreSQL 中配置使用排序规则 #### 配置自定义排序规则 PostgreSQL 支持通过 SQL 命令 `CREATE COLLATION` 创建用户定义的排序规则。这些排序规则可以用于字符串比较操作,例如排序、分组以及索引构建。标准预定义的排序规则存储在模式 `pg_catalog` 中,而用户定义的排序规则应创建在用户的特定模式下[^2]。 以下是创建自定义排序规则的一个示例: ```sql -- 创建一个新的排序规则 my_collation 使用 en_US.UTF-8 的区域设置 CREATE COLLATION my_collation (locale = 'en_US.UTF-8'); ``` 此命令会基于指定的区域设置(如上例中的 `en_US.UTF-8`)创建名为 `my_collation` 的新排序规则。该排序规则可以在表定义或查询中应用。 #### 应用排序规则到表列 当创建表时,可以通过显式声明列的排序规则来应用它。下面是一个例子: ```sql CREATE TABLE example_table ( id SERIAL PRIMARY KEY, name TEXT COLLATE my_collation NOT NULL -- 将自定义排序规则应用于 name 列 ); ``` 在此情况下,`name` 列将按照 `my_collation` 定义的行为进行排序比较。 #### 查询中动态指定排序规则 除了在表结构中固定排序规则外,在执行查询时也可以临时覆盖默认行为。这通常适用于需要灵活处理数据的情况。例如: ```sql SELECT * FROM example_table ORDER BY name COLLATE "C"; ``` 上述语句会在排序过程中忽略当前列的默认排序规则并改用 `"C"` 排序规则(即字节顺序)。这种灵活性使得开发者能够针对具体需求调整排序逻辑。 #### 处理多语言环境下的排序 对于涉及多种语言的应用场景,可能需要依赖更复杂的 libc 排序规则或其他高级特性。PostgreSQL 提供了对国际化的支持,允许利用操作系统级别的本地化功能实现复杂排序。然而需要注意的是,不同的操作系统可能会有不同的可用选项;因此建议测试目标环境中实际支持哪些区域设定及其效果。 #### 结合索引来优化性能 某些数据库系统允许在建立索引的同时定义其使用的排序规则。这一机制特别适合那些既需按某种方式快速检索又希望保持其他形式访问效率高的场合。例如,在同一字段上分别维护区分大小写与不区分大小写的两个独立索引可显著提升相应查询的速度[^4]。 ```sql -- 创建一个带有特定排序规则的 B-tree 索引 CREATE INDEX idx_example_name ON example_table(name COLLATE my_collation); ``` 这样做的好处在于即使原始表格设计未考虑特殊排序需求的情况下也能有效增强应用程序的表现力。 ---
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值