SQL正则

转载一篇关于SQL正则的用法的东西:

今儿个才知道SQL语句还可以搭配正则表达式作为查询条件,很是有用。

REGEXP_LIKE(匹配)
REGEXP_INSTR (包含)
REGEXP_REPLACE(替换)
REGEXP_SUBSTR(提取)

表 1:定位元字符

元字符 说明
^ 使表达式定位至一行的开头
$ 使表达式定位至一行的末尾

表 2:量词或重复操作符

量词 说明

  • 匹配 0 次或更多次
    ? 匹配 0 次或 1 次
  • 匹配 1 次或更多次
    {m} 正好匹配 m 次
    {m,} 至少匹配 m 次
    {m, n} 至少匹配 m 次但不超过 n 次

表 3:预定义的 POSIX 字符类

字符类 说明
[:alpha:] 字母字符
[:lower:] 小写字母字符
[:upper:] 大写字母字符
[:digit:] 数字
[:alnum:] 字母数字字符
[:space:] 空白字符(禁止打印),如回车符、换行符、竖直制表符和换页符
[:punct:] 标点字符
[:cntrl:] 控制字符(禁止打印)
[:print:] 可打印字符

表 4:表达式的替换匹配和分组

元字符 说明
| 替换 分隔替换选项,通常与分组操作符 () 一起使用
( ) 分组 将子表达式分组为一个替换单元、量词单元或后向引用单元(参见“后向引用”部分)
[char] 字符列表 表示一个字符列表;一个字符列表中的大多数元字符(除字符类、^ 和 - 元字符之外)被理解为文字

表 5:REGEXP_LIKE 操作符

语法 说明
REGEXP_LIKE(source_string, pattern
[, match_parameter]) source_string 支持字符数据类型(CHAR、VARCHAR2、CLOB、NCHAR、NVARCHAR2 和 NCLOB,但不包括 LONG)。pattern 参数是正则表达式的另一个名称。match_parameter 允许可选的参数(如处理换行符、保留多行格式化以及提供对区分大小写的控制)。

表 6:REGEXP_INSTR 函数

语法 说明
REGEXP_INSTR(source_string, pattern
[, start_position
[, occurrence
[, return_option
[, match_parameter]]]]) 该函数查找 pattern ,并返回该模式的第一个位置。您可以随意指定您想要开始搜索的 start_position。 occurrence 参数默认为 1,除非您指定您要查找接下来出现的一个模式。return_option 的默认值为 0,它返回该模式的起始位置;值为 1 则返回符合匹配条件的下一个字符的起始位置。

表 7: 5 位数字加 4 位邮政编码表达式的说明

语法 说明
必须匹配的空白
[:digit:] POSIX 数字类
] 字符列表的结尾
{5} 字符列表正好重复出现 5 次
( 子表达式的开头

  • 一个文字连字符,因为它不是一个字符列表内的范围元字符
    [ 字符列表的开头
    [:digit:] POSIX [:digit:]类
    [ 字符列表的开头
    ] 字符列表的结尾
    {4} 字符列表正好重复出现 4 次
    ) 结束圆括号,结束子表达式
    ? ? 量词匹配分组的子表达式 0 或 1 次,从而使得 4 位代码可选
    $ 定位元字符,指示行尾

表 8:REGEXP_SUBSTR 函数

语法 说明
REGEXP_SUBSTR(source_string, pattern
[, position [, occurrence
[, match_parameter]]]) REGEXP_SUBSTR 函数返回匹配模式的子字符串。

表 9: REGEXP_REPLACE 函数

语法 说明
REGEXP_REPLACE(source_string, pattern
[, replace_string [, position
[,occurrence, [match_parameter]]]]) 该函数用一个指定的 replace_string 来替换匹配的模式,从而允许复杂的“搜索并替换”操作。

表 10:后向引用元字符

元字符 说明
\digit 反斜线 紧跟着一个 1 到 9 之间的数字,反斜线匹配之前的用括号括起来的第 digit 个子表达式。
(注意:反斜线在正则表达式中有另一种意义,取决于上下文,它还可能表示 Escape 字符。

表 11:模式交换正则表达式的说明

正则表达式项目 说明
( 第一个子表达式的开头
. 匹配除换行符之外的任意单字符

  • 重复操作符,匹配之前的 . 元字符 0 到 n 次
    ) 第一个子表达式的结尾;匹配结果在 \1
    中获取(在这个例子中,结果为 Ellen。)
    必须存在的空白
    ( 第二个子表达式的开头
    . 匹配除换行符之外的任意单个字符
  • 重复操作符,匹配之前的 . 元字符 0 到 n 次
    ) 第二个子表达式的结尾;匹配结果在 \2
    中获取(在这个例子中,结果为 Hildi。)
    空白
    ( 第三个子表达式的开头
    . 匹配除换行符之外的任意单字符
  • 重复操作符,匹配之前的 . 元字符 0 到 n 次
    ) 第三个子表达式的结尾;匹配结果在 \3
    中获取(在这个例子中,结果为 Smith。)

表 12:社会保险号码正则表达式的说明

正则表达式项目 说明
^ 行首字符(正则表达式在匹配之前不能有任何前导字符。)
( 开始子表达式并列出用 | 元字符分开的可替换选项
[ 字符列表的开头
[:digit:] POSIX 数字类
] 字符列表的结尾
{3} 字符列表正好重复出现 3 次

  • 连字符
    [ 字符列表的开头
    [:digit:] POSIX 数字类
    ] 字符列表的结尾
    {2} 字符列表正好重复出现 2 次
  • 另一个连字符
    [ 字符列表的开头
    [:digit:] POSIX 数字类
    ] 字符列表的结尾
    {4} 字符列表正好重复出现 4 次
    | 替换元字符;结束第一个选项并开始下一个替换表达式
    [ 字符列表的开头
    [:digit:] POSIX 数字类
    ] 字符列表的结尾
    {9} 字符列表正好重复出现 9 次
    ) 结束圆括号,结束用于替换的子表达式组
    $ 定位元字符,指示行尾;没有额外的字符能够符合模式
    SELECT * FORM. tKHXX where REGEXP_LIKE(SJHM, ‘1{1}[35]{1}[[:digit:]]{9}$’
    针对这个表达式解释一下
    ^ 表示开始
    $ 表示结束
    []内部为匹配范围
    {}里的内容表时个数,有几位
    手机号码的特点是以 1开头接着是3或5再加9位的数字 所以这么理解
    1开头 表达式为 2{1} 意为 开始1位里包含1
    3或5 表达式为 [35]{1}
    9位数字结束 为: [[:digit:]]{9}$ 这里[:digit:]为特殊写法,代表为数字 再加个结束符$

转自:http://blog.itpub.net/352988/viewspace-702052/


  1. 1 ↩︎

  2. 1 ↩︎

SQL中,正则表达式是一种强大的工具,用于模式匹配、数据提取、替换或验证文本数据。不同数据库管理系统(DBMS)支持的正则表达式语法和函数略有不同,但其核心思想是通过定义特定的字符组合来匹配或操作字符串内容。 ### 常见SQL数据库中的正则表达式用法 #### 1. MySQL 中的正则表达式 MySQL 使用 `REGEXP` 或 `RLIKE` 关键字进行正则匹配,常用于 `WHERE` 子句中筛选符合条件的数据[^1]。 例如: ```sql SELECT * FROM users WHERE email REGEXP '^[A-Z0-9._%+-]+@[A-Z0-9.-]+\.[A-Z]{2,}$'; ``` 此查询将返回所有符合电子邮件格式的记录。 #### 2. Oracle 中的正则表达式函数 Oracle 提供了多个内置函数来处理正则表达式,包括: - `REGEXP_LIKE`:用于判断某个字段是否匹配指定的正则表达式。 - `REGEXP_INSTR`:查找子串在源字符串中的起始位置。 - `REGEXP_REPLACE`:替换符合正则表达式的部分。 - `REGEXP_SUBSTR`:提取符合正则表达式的子字符串[^4]。 示例: ```sql -- 查找包含数字的姓名 SELECT name FROM employees WHERE REGEXP_LIKE(name, '[0-9]'); -- 提取电话号码中的区号 SELECT REGEXP_SUBSTR(phone, '^\d{3}') AS area_code FROM contacts; -- 替换所有非字母字符为空格 UPDATE logs SET message = REGEXP_REPLACE(message, '[^a-zA-Z]', ' '); ``` #### 3. PostgreSQL 中的正则表达式支持 PostgreSQL 支持使用 `~`、`~*`、`!~` 和 `!~*` 操作符来进行大小写敏感或不敏感的正则匹配。此外,它还提供了 `regexp_match`、`regexp_replace` 等函数[^1]。 示例: ```sql -- 匹配以大写字母开头的名字 SELECT * FROM users WHERE name ~ '^[A-Z]'; -- 提取URL路径 SELECT regexp_match(url, 'https?://([^/]+)') FROM websites; -- 移除HTML标签 SELECT regexp_replace(description, '<[^>]*>', '', 'g') FROM articles; ``` #### 4. SQL Server 中的正则表达式 尽管 SQL Server 原生不直接支持正则表达式,但可以通过 CLR 集成调用 .NET Framework 的 `System.Text.RegularExpressions.Regex` 类实现高级文本处理功能。也可以借助第三方库扩展相关能力[^1]。 --- ### 正则表达式的基本语法与常用模式 #### 字符类 - `.` 匹配任意单个字符(除了换行符) - `\d` 匹配任意数字 `[0-9]` - `\w` 匹配单词字符(字母、数字、下划线) - `\s` 匹配空白字符(空格、制表符等) #### 量词 - `*` 零次或多次 - `+` 一次或多次 - `?` 零次或一次 - `{n}` 精确 n 次 - `{n,}` 至少 n 次 - `{n,m}` n 到 m 次 #### 分组与捕获 - `(pattern)` 定义一个分组并捕获该部分内容 - `(?:pattern)` 定义一个非捕获组 #### 边界锚点 - `^` 行首 - `$` 行尾 - `\b` 单词边界 #### 贪婪 vs 非贪婪 默认情况下,正则表达式是贪婪的,即尽可能多地匹配内容;添加 `?` 可启用非贪婪模式,即尽可能少地匹配内容。 --- ### 实际应用场景 #### 数据清洗 清理无效或格式错误的数据,如去除多余的空格、标准化日期格式等。 #### 日志分析 从日志文件中提取特定信息,如IP地址、请求时间、响应状态码等。 #### 输入验证 确保用户输入符合预期格式,例如检查邮箱、手机号、邮政编码等。 #### 文本解析 从长文本中抽取关键信息,如从产品描述中提取价格、型号、品牌等字段。 --- ### 示例代码片段 #### 使用 Oracle 提取域名 ```sql SELECT REGEXP_SUBSTR(email, '@([a-zA-Z0-9.-]+)', 1, 1, NULL, 1) AS domain_name FROM users; ``` #### 使用 PostgreSQL 替换特殊字符 ```sql UPDATE products SET sku = regexp_replace(sku, '[^a-zA-Z0-9]', '_', 'g'); ``` #### 使用 MySQL 过滤有效电话号码 ```sql SELECT phone FROM customers WHERE phone REGEXP '^\\+?[1-9]\\d{1,14}$'; -- E.164 国际电话号码格式 ``` ---
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值