PostgreSQL pg_trgm中文模糊匹配优化技巧

原创

于 2025-10-10 15:39:44 发布 · 744 阅读

27 ·

CC 4.0 BY-SA版权

文章标签：

#postgresql #数据库

🧩 一、pg_trgm 在中文场景下的局限性

pg_trgm 是为**字母语言（如英语）**设计的，基于「连续 3 个字符」划分。
但中文属于「无空格、无词界」的语言，因此直接使用时存在问题：

示例	拆分结果（英文式）	实际语义	影响
张晓明	“张晓明” → “张晓明” (单个 trigram)	张 + 晓 + 明	🔸 trigram 数量太少，匹配不精确
北京大学	“北京大学” → “北京大”, “京大学”	北 + 京 + 大 + 学	🔸 模糊程度偏弱
李小龙	“李小龙” → “李小龙”	李 + 小 + 龙	✅ 短字符串效果尚可

👉 结论：
对于中文短文本（<10字）效果尚可，但对于长文本或语义复杂字段（如商品描述、新闻标题），匹配精度不足。

⚙️ 二、中文优化思路总览

我们可以通过以下三种方案增强中文模糊搜索体验：

在这里插入图片描述

⚡ 方案一：优化 pg_trgm 参数

PostgreSQL 默认的相似度阈值 similarity_threshold 可微调：

-- 默认 0.3，中文可设为更低
SET pg_trgm.similarity_threshold = 0.2;

📊 示例对比：

SELECT name, similarity(name, '张明') AS sim
FROM users
WHERE similarity(name, '张明') > 0.2
ORDER BY sim DESC;

name	sim	匹配状态</

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

@井九

关注关注

27
点赞
踩
27

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
打赏
打赏
打赏举报

举报

【PostgreSQL】PostgreSQL对数组中的元素做模糊匹配

tttzzzqqq2018的博客

07-05

1245

【实操】【PostgreSQL】PostgreSQL对数组中的元素做模糊匹配

postgresql数据库pg_trgm & pgvector 使用教程

penriver的博客

09-17

218

pg_trgm 是 PostgreSQL 的一个扩展模块，提供了基于 trigram（3-gram）相似度的**文本搜索**功能。它可以通过计算字符串之间的相似度来进行快速、模糊匹配的查询。这种功能在需要进行模糊搜索、字符串相似性比较等场景中非常有用。 pgvector 是一个开源的 PostgreSQL 扩展，为PostgreSQL添加了对向量相似性搜索的支持，使得在 PostgreSQL中存储和查询向量数据变得可能

参与评论您还未登录，请先登录后发表或查看评论

【PostgreSQL】GIN索引安装与使用 - 全模糊匹配/数组匹配，PG批量插入上万随机生成数据，随机生成字符串/数组

锥栗的博客

12-02

5238

PostgreSQLDBeaver打开SQL编辑器：输入命令运行即可：（光标选中某行后，按ctrl + enter可以只运行选中SQL）其它安装情况可以参考网上教程如：https://www.kancloud.cn/chunyu/php_basic_knowledge/2280100随后我们查看拓展库是否安装完成：建表语句有：随后我们要造假数据，为了合适模糊搜索，最好是随机生成的：随机生成字符串语句如下：有结果：随机生成中文如下：有结果：生成随机数组结合这些方法，我们生成10万条随机假数据插入表

PostgreSQL 百亿数据秒级响应正则及模糊查询

weixin_33893473的博客

03-02

2882

正则匹配和模糊匹配通常是搜索引擎的特长，但是如果你使用的是 PostgreSQL 数据库照样能实现，并且性能不赖，加上分布式方案 (譬如 plproxy, pg_shard, fdw shard, pg-xc, pg-xl, greenplum)，处理百亿以上数据量的正则匹配和模糊匹配效果杠杠的，同时还不失数据库固有的功能，一举多得。物联网中有大量的数...

PostgreSQL模糊查询

Focus on PostgreSQL

09-09

5653

说明: 数据库中常用到模糊查询基本分为三类:后模糊(abc%)、前模糊(%abc)、前后模糊(%abc%),一般数据库中都能够支持后模糊查询,但是对于前模糊和前后模糊的支持并不好,但是PostgreSQL对于模糊查询的支持可以说是相当强大,针对不同场景有不同的优化手段,在PostgreSQL中对于这三种模糊查询采用的方法大致如下: 后模糊(abc%):可以使用btree来优化前模糊(%abc):...

PostgreSQL 中的 pg_trgm 扩展详解

guigenyi的专栏

07-17

692

PostgreSQL的pg_trgm扩展通过三元组(trigram)技术优化文本搜索，支持模糊匹配、相似度计算和正则表达式查询。核心功能包括将文本拆分为连续3字符组，创建GIN/GIST索引加速搜索。典型应用场景有优化LIKE查询、相似度排序和高级文本搜索。性能上，索引比B-tree大但查询快10-100倍，适合构建"Google-like"搜索，但对短文本和非ASCII字符效果有限。使用时建议结合普通索引，并注意语言处理需求。

PostgreSQL（二）索引介绍索引扫描方式（gin索引 pg_trgm模糊查询索引原理）

是个好男人的博客

05-13

3723

1.索引的意义 1.1索引的优点创建索引能够加快对表的查询，排序，以及唯一约束的作用。索引能够提供给优化器更好的值分布统计信息。 1.2索引的缺点创建索引会增加数据库的存储空间，在计算数据库的容量大小时需要计算表和索引的总空间大小。在创建完索引之后的表，执行插入、更新和删除操作时，索引需要更新，故耗时会成倍增加。 2.索引管理 2.1创建索引创建索引时，不能包括schema模式名，因为索引默认被创建在其基表所在的模式中，创...

PostgreSQL `pg_trgm` 扩展实现高效模糊查询实践

最新发布

四楼没电梯的专栏

10-10

826

PostgreSQL的pg_trgm扩展能大幅提升模糊查询性能，相比传统LIKE有显著优势。它通过将字符串拆分为三元组(trigram)并建立GIN索引，使百万级数据的模糊查询耗时从1.25秒降至35毫秒。该扩展支持相似度计算、排序和中文搜索，适用于用户/商品名称等模糊查询场景。安装简单，只需执行CREATE EXTENSION pg_trgm并创建索引即可。pg_trgm可与全文检索结合使用，是优化数据库模糊搜索的高效解决方案。

postgresql分妺_中文模糊查询性能优化 by PostgreSQL trgm-阿里云开发者社区

weixin_39987313的博客

12-21

628

前模糊，后模糊，前后模糊，正则匹配都属于文本搜索领域常见的需求。PostgreSQL在文本搜索领域除了全文检索，还有trgm是一般数据库没有的，甚至可能很多人没有听说过。对于前模糊和后模糊，PG则与其他数据库一样，可以使用btree来加速，后模糊可以使用反转函数的函数索引来加速。对于前后模糊和正则匹配，则可以使用trgm，TRGM是一个非常强的插件，对这类文本搜索场景性能提升非常有效，100万左右...

PostgreSQL正则及模糊查询优化

weixin_30527143的博客

03-22

239

1、带前缀的模糊查询 ~'^abc' 可以使用btree索引优化 create index idx_info on table_name(info)　　 2、带后缀的模糊查询 ~'abc$' 可以使用reverse函数btree索引 create index idx_info1 on table_name(reverse(info)); 3、不带前后缀的模糊查询和...

【记录】postgresql like 模糊查询优化

u010328311的博客

02-11

6606

【记录】postgresql like 模糊查询优化

【PostgreSQL】PG左模糊右模糊匹配查询，如何走btree索引

锥栗的博客

11-06

4098

PG如果直接使用左右模糊查询，可能会不走btree索引，这里记录一下模糊匹配走索引的方法。这里使用DBeaver来操作本地数据库。首先打开SQL编辑页：我们建表为 test.user_content ，维护了主键id，username，user_id和content字段，并且插入一点数据，语句如下：如果使用以下是无法走索引的，因此需要改写为：或者是：执行SQL编辑页：得到我们的test.user_content：可以看到索引和依赖关系：之后我们对username字段进行模糊查询：可以看到成功走

PostgreSQL模糊匹配走索引

热门推荐

JackGo!

05-28

1万+

数据库版本：postgresql 9.6.0 作者：JackGo 邮箱：jackgo73@outlook.com 日期：2017年5月28日场景1 lower(name) like 'pf%'场景构造create table users (id int primary key, name varchar(255));Create or replace function ra

postgresql 中的 like 查询优化

qq_23986087的博客

01-17

2634

当时数量量比较庞大的时候，做模糊查询效率很慢，为了优化查询效率，尝试如下方法做效率对比一、对比情况说明： 1、数据量100w条数据 2、执行sql explain analyze SELECT c_patent, c_applyissno, d_applyissdate, d_applydate, c_patenttype_dimn, c_newlawstatus...

彻底搞懂PostgreSQL的模糊查询:LIKE和ILIKE

weixin_43922449的博客

09-23

1万+

如果我们使用的是PostgreSQL数据库，那么我们可以使用LIKE和ILIKE做模糊查询，LIKE语法是SQL标准而ILIKE是PostgreSQL的一个扩展。构造数据先创建一张表，然后插入一些数据； create table test( id serial, name varchar(16) ); 基本使用在使用 LIKE/ILIKE 时，有两个通配符：百分号 (%) 和下划线 (_) % - 匹配任何零个或多个字符 _ - 匹配单个任意字符先看一下这个的查询： selec

Postgresql查询时不区大小写

tj19910712的博客

11-20

3237

postgresql提供有强大的正则表达式系统，可以在数据库级别实现模糊查询。正则表达式匹配操作符：操作符描述例子 ~ 匹配正则表达式，大小写相关 'thomas' ~ '.*thomas.*' ~* 匹配正则表达式，大小写无关 'thomas' ~* '.*Thomas.*' !

PostgreSQL 模糊查询最佳实践 - (含单字、双字、多字模糊查询方法)

weixin_40581617的博客

11-22

4603

作者 digoal 日期 2017-04-26 标签 PostgreSQL , 模糊查询 , 正则查询 , pg_trgm , bytea , gin , 函数索引背景前模糊(有前缀的模糊)，后模糊(有后缀的模糊)，前后模糊(无前后缀的模糊)，正则匹配都属于文本搜索领域常见的需求。 PostgreSQL拥有很强的文本搜索能力，除了支持全文检索，还支持模糊查询、正则查询。内置的pg_tr...

利用pg_trgm的gist和gin索引加速字符匹配查询

weixin_34124577的博客

02-06

483

pg_trgm是用来做相似度匹配的，在一些情况下也可以拿来代替全文检索做字符匹配。从大量数据中通过字符串的匹配查找数据的关键是索引，对字符串的精确相等匹配，前缀匹配(like 'x%')和后缀匹配(like '%x')可以使用btree索引,对中缀匹配(like '%x%')和正则表达式匹配就可以用pg_trgm的索引了。下面用一个例子说明...

PostgreSQL LIKE模糊查询优化：pg_trgm解决方案与索引创建

pg_trgm 是一个强大的工具，专门设计用于处理文本数据的模糊匹配和相似性搜索，它能够有效地与 LIKE 查询结合，利用索引来加速查询过程。pg_trgm 使用的是gin (Generalized Inverted Index) 索引类型，Btree_gin 是...