预处理在快速判断两个单词是否有相同字符的应用

本文介绍了一种优化算法,用于快速判断两个英文单词是否有重复字符,并通过位运算将时间复杂度降低至O(1),同时提供了一个示例题目及解决方案。

判断两个单词是否有相同字符,一般的做法是,采用辅助的集合类容器,先遍历一个字符串,把它的字符放到集合中;再遍历第二个字符串,检查其字符是否存在于集合。时间复杂度是O(len1 + len2)。len1, len2 分别是两个字符串的长度。

如果是一个单词的集合,需要判断两两判断两个单词是否有重复字符,按照上面的算法,总的复杂度变为 O(n * len), len是字符串长度的上限。

其实这种情况,可以对字符串进行预处理(离线算法的思想),使得判断两个单词是否有相同字符变为一个O(1)的操作。这里面利用到单词的字符集是有限的这一特性,比如,英文单词就是26个字母,可以把一个单词包含的字母的情况,转化为一个26位的位图,两个单词如果有相同的字母,那么相应的bit位置上就同为1。把位图当成一个数,两个位图做一个“与”操作,结果为0就得出对应的单词无重复字符。

例题:Leetcode 剑指 Offer II 005
给定一个字符串数组 words,请计算当两个字符串 words[i] 和 words[j] 不包含相同字符时,它们长度的乘积的最大值。假设字符串中只包含英语的小写字母。如果没有不包含相同字符的一对字符串,返回 0。、

class Solution {
    public int maxProduct(String[] words) {
        int[] masks = new int[words.length];
        for (int i = 0; i < words.length; ++i) {
            for (int k = 0; k < words[i].length(); ++k) {
                masks[i] |= 1 << words[i].charAt(k) - 'a';
            }
        }
        int len = 0;
        for (int i = 0; i < words.length; ++i) {
            for (int j = i + 1; j < words.length; ++j) {
                if ((masks[i] & masks[j]) == 0) {
                    len = Math.max(len, words[i].length() * words[j].length());
                }
            }
        } 
        return len;
    }
}
<think>在用户的问题中,他们明确询问了PostgreSQL中判断两个字符串相似度的方法。结合提供的引用,我可以整理出以下关键点: 1. **引用[1]和[2]直接回答了查询**:它们提到使用`pg_trgm`扩展中的`similarity`和`word_similarity`函数,并通过示例展示了用法。引用[2]还解释了背后的三元组(Trigram)原理。 2. **引用[3]和[4]提供了补充背景**:引用[3]说明PostgreSQL的历史和应用场景,引用[4]展示了模糊匹配的其他方法(如`similar to`),但用户主要关注的是相似度计算而非模糊匹配语法。 用户的核心需求是**获取具体的字符串相似度判断方法**,而非历史背景或其他模糊匹配方式。因此,我会优先聚焦`pg_trgm`扩展的使用,并强调以下几点: - 需要先创建扩展(`CREATE EXTENSION pg_trgm;`)。 - 示例中`similarity`和`word_similarity`的区别:前者计算所有三元组的重叠比例,后者更侧重单词边界匹配(如引用[1]的结果差异:`abc`与`abcd`相似度分别为0.5和0.75)。 - 引用[2]的三元组原理解释可帮助用户理解为何这种方法抗拼写错误。 对于模糊匹配需求(引用[4]),虽然用户未直接询问,但可作为补充知识简要提及"其他方法如`similar to`",避免混淆核心主题。最后生成的问题需围绕相似度计算的扩展场景,例如: 1. 如何处理大小写或特殊字符? 2. 性能优化建议(如三元组索引)。 3. 与Levenshtein距离等其他方法的对比。 回答结构会分步骤:先说明安装扩展,再解释函数用法和区别,最后补充原理和示例。确保所有SQL代码用代码块标注,数学公式如相似度计算使用`$...$`内联格式(例如相似度公式$S = \frac{|A \cap B|}{|A \cup B|}$)。 </think>### PostgreSQL中判断字符串相似度的方法 在PostgreSQL中,主要通过**`pg_trgm`扩展**实现字符串相似度计算。该方法基于**三元组(Trigram)分解**原理,可有效处理拼写错误和部分匹配。以下是具体实现步骤和函数说明: --- #### 1. **启用pg_trgm扩展** ```sql CREATE EXTENSION IF NOT EXISTS pg_trgm; -- 需超级用户权限 ``` #### 2. **核心相似度计算函数 | 函数 | 描述 | 示例 | 数学原理[^2] | |------------------------|----------------------------------------------------------------------|---------------------------------------|-----------------------------------------------| | **`similarity(a, b)`** | 计算全局相似度(范围:0~1),比较所有三元组重叠程度 | `SELECT similarity('abc','abcd');` → `0.5` | $S = \frac{\|A \cap B\|}{\|A \cup B\|}$ | | **`word_similarity(a, b)`** | 计算最佳子串匹配相似度(范围:0~1),侧重连续片段匹配 | `SELECT word_similarity('abc','abcd');` → `0.75$ | $S_{\text{word}} = \max\left(\frac{\|A \cap B_{\text{sub}}\|}{\|A\|}\right)$ | --- #### 3. **三元组分解原理[^2]** - **三元组生成**:将字符串拆解为**连续3字符的组合**(含空格填充)。 示例: ```sql SELECT show_trgm('abc'); -- 输出: {" a"," ab","abc","bc "} ``` - **相似度计算**: 通过比较两个字符串的三元组集合的交集与并集比例实现: $$ \text{similarity} = \frac{\text{共同三元组数量}}{\text{总不重复三元组数量}} $$ ![](https://www.postgresql.org/docs/current/images/trgm-matrix.png) *(三元组匹配示意图)* --- #### 4. **高阶用法与优化** 1. **模糊查询加速**: 创建GIST/GIN索引提升相似搜索性能: ```sql CREATE INDEX idx_name ON table_name USING GIN(column_name gin_trgm_ops); ``` 2. **多条件筛选**: 结合`SIMILAR TO`实现多字符串逻辑匹配[^4]: ```sql SELECT * FROM table WHERE column SIMILAR TO '%(A|B|C)%' -- 包含A或B或C AND NOT SIMILAR TO '%(D|E|F)%'; -- 排除D/E/F ``` 3. **大小写处理**: 使用`lower()`函数归一化: ```sql SELECT similarity(lower('ABC'), lower('abc')); -- 输出: 1.0 ``` --- #### 5. 适用场景 - 拼写纠错(如搜索"Jon"匹配"John") - 部分匹配(如"数据库"匹配"PostgreSQL数据库") - 数据清洗(去重相似记录) > ⚠️ **注意**:`pg_trgm`对短字符串(<3字符)敏感,建议预处理或结合其他方法(如Levenshtein距离)。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值