使用 Hive SQL 中的 RLIKE 进行正则表达式匹配

lfwh

已于 2025-06-06 16:46:49 修改

阅读量2.1k

点赞数 30

分类专栏： # hive # Spark 文章标签： hive sql 正则表达式

于 2024-11-30 21:00:00 首次发布

本文链接：https://blog.youkuaiyun.com/weixin_42326851/article/details/144156942

版权

hive 同时被 2 个专栏收录

17 篇文章

订阅专栏

Spark

8 篇文章

订阅专栏

文章目录

前言
1、LIKE vs RLIKE
2、使用 RLIKE 替代多个 NOT LIKE 语句
3、使用 RLIKE 简化查询
4、正则表达式的灵活性
5、处理 NULL 值
6、性能考虑
8、总结
总结

前言

在数据处理和分析中，字符串匹配是一个常见的需求。Hive SQL 提供了多种方式来实现字符串匹配，其中 LIKE 和 RLIKE 是最常用的两种操作符。本文将重点介绍 RLIKE 操作符，并解释如何使用它来替代多个 NOT LIKE 语句，从而简化查询并提高效率。

1、LIKE vs RLIKE

LIKE：用于简单的通配符匹配，支持 % 和 _ 两个通配符。% 表示任意数量的字符（包括零个字符），而 _ 表示单个字符。LIKE 的匹配是从头逐一字符进行的，要求整个字符串完全匹配模式。
RLIKE：支持完整的正则表达式匹配，允许更复杂的模式匹配。RLIKE 不需要从头开始匹配，可以从字符串的任意位置开始匹配，并且不需要完全匹配整个字符串。这使得 RLIKE 在处理复杂模式时更加灵活和强大。

2、使用 RLIKE 替代多个 NOT LIKE 语句

假设我们有一个场景，需要排除某些特定前缀的车辆类型代码。具体来说，我们需要排除以 K, M, N, T 开头的 vehicle_type_code。使用 NOT LIKE 语句可以这样写：

WHERE (yz.vehicle_type_code NOT LIKE 'K%'
       OR yz.vehicle_type_code NOT LIKE 'M%'
       OR yz.vehicle_type_code NOT LIKE 'N%'
       OR yz.vehicle_type_code NOT LIKE 'T%')

然而，这种方法存在几个问题：

冗长：每个前缀都需要一个单独的 NOT LIKE 语句，导致查询变得冗长。
性能较低：多个 OR 条件可能会降低查询的执行效率，尤其是在大数据集上。
难以维护：如果需要添加或删除前缀，必须修改多个地方，增加了维护成本。

3、使用 RLIKE 简化查询

我们可以使用 RLIKE 来简化上述查询。RLIKE 支持正则表达式，因此可以用一个正则表达式来匹配多个前缀。例如，要排除以 K, M, N, T 开头的 vehicle_type_code，可以使用以下正则表达式：

WHERE yz.vehicle_type_code NOT RLIKE '^[KMNT]'

这里，^ 表示匹配字符串的开头，[KMNT] 表示匹配集合中的任意一个字符。因此，^[KMNT] 表示匹配以 K, M, N, T 中任意一个字符开头的字符串。

4、正则表达式的灵活性

RLIKE 的优势不仅在于简化查询，还在于它的灵活性。例如，如果我们还需要排除以 Z 开头的 vehicle_type_code，只需在正则表达式中添加 Z 即可：

WHERE yz.vehicle_type_code NOT RLIKE '^[KMNTZ]'

同样地，如果需要排除以 K, M, N, T 开头并且后面跟随任意字符的 vehicle_type_code，可以使用以下正则表达式：

WHERE yz.vehicle_type_code NOT RLIKE '^[KMNT].*'

这里的 .* 表示匹配任意数量的任意字符（包括零个字符），因此 ^[KMNT].* 表示匹配以 K, M, N, T 开头的任何字符串。

5、处理 NULL 值

在使用 LIKE 和 RLIKE 时，需要注意 NULL 值的处理。如果 vehicle_type_code 为 NULL，那么无论是 LIKE 还是 RLIKE，结果都将是 NULL，而不是 TRUE 或 FALSE。因此，在实际应用中，建议在查询中显式处理 NULL 值，例如：

WHERE (yz.vehicle_type_code IS NULL 
       OR yz.vehicle_type_code NOT RLIKE '^[KMNT]')

这样可以确保即使 vehicle_type_code 为 NULL，查询也能正常工作。

6、性能考虑

虽然 RLIKE 提供了更多的灵活性，但在某些情况下，LIKE 可能会比 RLIKE 更快，尤其是在使用索引的情况下。因此，在选择使用 LIKE 还是 RLIKE 时，应根据具体的需求和数据量来权衡。对于简单的前缀匹配，LIKE 可能是更好的选择；而对于复杂的模式匹配，RLIKE 则更为合适。