使用PostgreSQL数据库进行中文全文搜索的实现方法例子解析

最新推荐文章于 2025-11-12 14:29:23 发布

原创最新推荐文章于 2025-11-12 14:29:23 发布 · 1.9k 阅读

7 ·

CC 4.0 BY-SA版权

CC BY-NC-SA 3.0

文章标签：

#数据库 #postgresql #pg

pg 专栏收录该内容

109 篇文章

订阅专栏

在这里插入图片描述

代码示例：

在PostgreSQL中实现中文全文搜索，可以通过安装和使用中文分词插件来完成。以下是详细的实现方法和步骤：

安装中文分词插件：
PostgreSQL本身不支持中文分词，因此需要安装中文分词插件。目前有两个比较流行的插件：pg_jieba和zhparser。pg_jieba是基于结巴分词（jieba）的，而zhparser是基于SCWS（Simple Chinese Word Segmentation）的。
安装和配置zhparser插件：
- 首先需要下载并安装SCWS分词库和zhparser插件。
- 安装完成后，在PostgreSQL的配置文件中添加shared_preload_libraries = 'zhparser'。
- 接着创建分词函数，例如：CREATE FUNCTION zhparser_segment(text TEXT) RETURNS TEXT AS $$ BEGIN RETURN NLPIR_ParagraphProcessA(text, 0); END; $$ LANGUAGE plpgsql;。
- 创建使用zhparser作为解析器的全文搜索配置：CREATE TEXT SEARCH CONFIGURATION test_zhparserC (PARSER = zhparser);。
- 为分词结果添加映射：ALTER TEXT SEARCH CONFIGURATION test_zhparserC ADD MAPPING FOR n,v,a,i,e,l WITH simple;。
创建索引：
- 在中文文本列上创建GIN索引以提升搜索性能，例如：CREATE INDEX index_name ON table_name USING GIN(zhparser_segment(column_name));。
进行查询：
- 使用SELECT * FROM table_name WHERE zhparser_segment(column_name) @@ to_tsquery('查询词');进行查询。

优化：

可以存储分词结果，并在此字段上创建索引，例如：

ALTER TABLE table ADD COLUMN tsv_column tsvector;
UPDATE table SET tsv_column = to_tsvector('parser_name', coalesce(field,''));
CREATE INDEX idx_gin_zhcn ON table USING GIN(tsv_column);
CREATE TRIGGER trigger_name BEFORE INSERT OR UPDATE ON table FOR EACH ROW EXECUTE PROCEDURE tsvector_update_trigger(tsv_column, 'parser_name', field);

这样可以在插入或更新数据时自动更新分词索引。

添加自定义词典：
- 可以下载xdb格式的词库来替代默认词典，或者使用txt格式的词库，并在postgresql.conf中设置zhparser.extra_dicts = "mydict.txt"。
使用pg_jieba插件：
- 如果使用pg_jieba，则需要安装结巴分词库，并在PostgreSQL中创建扩展。
注意事项：
- 创建索引时使用的分词规则需要与查询时使用的一致，否则索引可能不会生效。
- 中文分词的准确性会影响全文搜索的结果。