Hive 正则匹配函数

博客介绍了正则匹配字符的含义,如^表示开头、$表示结尾等,还阐述了元字符、位置、频率匹配规则。同时介绍了正则匹配函数,包括regexp_extract、regexp_substr和regexp的用法、参数及示例,帮助理解正则表达式在字符串处理中的应用。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

正则匹配字符解释

  • ^ 表示开头
  • $ 表示结尾
  • . 表示任意字符
  • * 表示任意多个

1、元字符匹配

(.)   表示匹配除换行符以外的任意字符。

(\w) 表示匹配字母、下划线、数字或汉字(\\W)。

(\d) 表示匹配数字

(\s) 表示匹配任意的空白符

([ ])  表示匹配方括号中任一字符

([^匹配内容]) 表示匹配方括号中任一字符

2、位置匹配

(^) 表示匹配字符串的开始,空值:^$

($) 表示匹配字符串的结束

(\b) 表示匹配单词的开始或结束。

(\B) 表示匹配非单词的开始或结束

3、频率匹配

(*) 表示匹配重复0次或多次

(+) 表示匹配重复一次或更多次

(?) 表示匹配重复0次或1次

({n}) 表示匹配重复n次

({n,}) 表示重复n次或更多次

({n,m}) 表示重复n到m次

正则匹配函数:regexp_extract函数

用法:

regexp_extract(string subject, string pattern, int index)
 

1)regexp_extract函数

语法:    regexp_extract(string subject,  string pattern,  int index)

返回值: string

说明:  将字符串subject按照pattern正则表达式的规则拆分,返回index指定的字符。

第一参数:   要处理的字段

第二参数:    需要匹配的正则表达式

第三个参数:

  • 0是显示与之匹配的整个字符串
  • 1 是显示第一个括号里面的
  • 2 是显示第二个括号里面的字段...

 

注意,在有些情况下要使用转义字符(双斜杠了‘\\’)。

2) regexp_substr

regexp_substr(string, regex,postion,match_parameter)

  string : 被解析的字符串或字段名

  regex: 正则表达式

  postion:其实位置

  match_parameter:出现的次数

 

For example:

                  select regexp_substr('别克-君威2010款 2.4L A.MT 旗舰版2.3T','[[:alnum:]][[:punct:]][[:alnum:]][LT]',1,1)  from dual

                 分析: 上面正则的意思是 [[:alnum:]][[:punct:]][[:alnum:]][LT]  ===> 任何字母(不区分大小写)和数字+ 任何标点符号+任何字母和数字 +(L或者T)的组合

                  后面   1,1 的意思是从匹配的字符串起,符合正则且第一次出现的字符串

                  结果:  2.4L

                 

                 换个方式提取  A.MT SQL语句如下

                select regexp_substr('别克-君威2010款 2.4L A.MT 旗舰版2.3T','[[:alnum:]][[:punct:]][[:alnum:]][LT]',1,2)  from dual

                如果提取2.3T ,把最后那个数字改成3即可,就不写sql了。累!

                

                 select
                 REGEXP_SUBSTR('9.00w','([0-9]*)[[:punct:]]([0-9]*)',1,1) 
                 from dual

                大家可以验证一下这个语句!

      3)regexp

 regexp的用法比较简单,就是个判断语句跟like、=、!=、not in 、in 的感觉一样
 

1、关于正则表达式的符号及意义

正则表达式由标准的元字符(metacharacters)所构成:

 

/

做为转意,即通常在"/"后面的字符不按原来意义解释,如/b/匹配字符"b",当b前面加了反斜杆后//b/,转意为匹配一个单词的边界。
-或- 
对正则表达式功能字符的还原,如"*"匹配它前面元字符0次或多次,/a*/将匹配a,aa,aaa,加了"/"后,/a/*/将只匹配"a*"。

^匹配一个输入或一行的开头,/^a/匹配"an A",而不匹配"An a"
$匹配一个输入或一行的结尾,/a$/匹配"An a",而不匹配"an A"
*匹配前面元字符0次或多次,/ba*/将匹配b,ba,baa,baaa
+匹配前面元字符1次或多次,/ba*/将匹配ba,baa,baaa
?匹配前面元字符0次或1次,/ba*/将匹配b,ba
(x)匹配x保存x在名为$1...$9的变量中
x|y匹配x或y
{n}精确匹配n次
{n,}匹配n次以上
{n,m}匹配n-m次
[xyz]字符集(character set),匹配这个集合中的任一一个字符(或元字符)
[^xyz]不匹配这个集合中的任何一个字符
[/b]匹配一个退格符
/b匹配一个单词的边界
/B匹配一个单词的非边界
/cX这儿,X是一个控制符,//cM/匹配Ctrl-M
/d匹配一个字数字符,//d/ = /[0-9]/
/D匹配一个非字数字符,//D/ = /[^0-9]/
/n匹配一个换行符
/r匹配一个回车符
/s匹配一个空白字符,包括/n,/r,/f,/t,/v等
/S匹配一个非空白字符,等于/[^/n/f/r/t/v]/
/t匹配一个制表符
/v匹配一个重直制表符
/w匹配一个可以组成单词的字符(alphanumeric,这是我的意译,含数字),包括下划线,如[/w]匹配"$5.98"中的5,等于[a-zA-Z0-9]
/W匹配一个不可以组成单词的字符,如[/W]匹配"$5.98"中的$,等于[^a-zA-Z0-9]。

'( )' 标记一个子表达式的开始和结束位置。
'[]' 标记一个中括号表达式。
/num 匹配 num,其中 num 是一个正整数。对所获取的匹配的引用。
字符簇: 
[[:alpha:]] 任何字母。
[[:digit:]] 任何数字。
[[:alnum:]] 任何字母和数字。
[[:space:]] 任何白字符。
[[:upper:]] 任何大写字母。
[[:lower:]] 任何小写字母。
[[:punct:]] 任何标点符号。
[[:xdigit:]] 任何16进制的数字,相当于[0-9a-fA-F]

 

[[:<:]],[[:>:]] 标记表示word边界。它们分别与word的开始和结束匹配。word是一系列字字符,其前面和后面均没有字字符。字字符是alnum类中的字母数字字符或下划线(_)

 

各种操作符的运算优先级:
/ 转义符
(), (?:), (?=), [] 圆括号和方括号
*, +, ?, {n}, {n,}, {n,m} 限定符
^, $, anymetacharacter 位置和顺序

 

2、regexp_extract函数

regexp_extract(str, regexp[, idx]) - extracts a group that matches regexp

字符串正则表达式解析函数。

 

参数解释:

其中:

str是被解析的字符串或字段名

regexp 是正则表达式

idx是返回结果 取表达式的哪一部分  默认值为1。

0表示把整个正则表达式对应的结果全部返回

1表示返回正则表达式中第一个() 对应的结果 以此类推 

<think>嗯,用户想了解Hive正则表达式匹配的使用方法和示例。首先,我需要回忆Hive中处理正则表达式的常用函数,比如regexp_extract、regexp_replace和regexp_like。这些函数在用户提供的引用资料里也有提到,尤其是引用[2]详细列出了字符规范和数量表示,这些需要结合到示例中。 用户可能需要具体的例子来理解如何应用这些函数。比如,regexp_extract可以从字符串中提取特定模式的部分,而regexp_replace可以替换匹配到的内容。此外,regexp_like用于过滤符合条件的数据。需要确保示例覆盖这些函数的典型使用场景,比如提取电话号码、替换特定字符或筛选有效邮箱。 要注意用户可能对正则表达式的语法不太熟悉,所以每个示例应该解释使用的正则表达式结构,比如\d代表数字,{n}表示出现次数。同时,要指出Hive正则表达式是基于Java的,所以需要注意转义字符的使用,比如双反斜杠。此外,性能问题也是需要考虑的,比如在大数据环境下避免复杂的正则表达式,或者预编译模式以提高效率。 用户提供的引用[1]和[2]中有关于字符规范和函数的说明,需要将这些内容自然地融入到回答中,并在适当的地方添加引用标识。例如,在解释\d时引用[2]的规范列表。还要确保回答结构清晰,分点说明每个函数的使用方法,并提供示例代码,这样用户能一步步跟着操作。 最后,生成的相关问题需要围绕用户可能进一步想了解的内容,比如不同函数的区别、性能优化或复杂匹配案例,这样可以引导用户深入学习和解决问题。需要检查所有正则表达式示例是否符合语法,比如是否正确使用转义符,边界符号是否恰当,确保示例的正确性。</think>### Hive正则表达式匹配使用方法及示例 Hive正则表达式匹配主要通过以下函数实现,结合字符规范和数量表示规则进行操作[^2]: --- #### 一、核心函数及语法 1. **`regexp_extract(string, pattern, index)`** - **作用**:从字符串中提取符合正则表达式规则的子串 - **参数**: - `string`:原始字符串 - `pattern`:正则表达式 - `index`:返回第几个捕获组(从1开始) ```sql -- 示例:提取电话号码中的区号(假设格式为"010-12345678") SELECT regexp_extract('Tel:010-12345678', '(\\d{3})-(\\d{8})', 1); -- 返回结果:010 ``` 2. **`regexp_replace(string, pattern, replacement)`** - **作用**:替换字符串中匹配正则的部分 ```sql -- 示例:隐藏手机号中间四位(如"13812345678" → "138****5678") SELECT regexp_replace('13812345678', '(\\d{3})\\d{4}(\\d{4})', '$1****$2'); -- 结果:138****5678 ``` 3. **`regexp_like(string, pattern)`** - **作用**:判断字符串是否匹配正则表达式 ```sql -- 示例:筛选有效邮箱地址(格式为xxx@xxx.xxx) SELECT * FROM users WHERE regexp_like(email, '^\\w+@\\w+\\.[a-zA-Z]{2,3}$'); ``` --- #### 二、关键正则规则(Hive实现参考) | 符号 | 含义 | 示例 | |------------|-------------------------|-----------------------| | `\\d` | 匹配数字 | `\\d{4}`匹配4位数字 | | `[A-Za-z]` | 字母 | `[A-Z]+`匹配大写字母 | | `^` / `$` | 字符串开始/结束 | `^abc`匹配以abc开头的行 | | `X{n,m}` | X出现n到m次 | `\\d{2,5}`匹配2-5位数字 | | `(A\|B)` | 匹配A或B | `(jpg\|png)`匹配文件后缀 | --- #### 三、复杂场景示例 1. **提取日志中的IP地址** ```sql SELECT regexp_extract(log_line, '(\\d{1,3}\\.){3}\\d{1,3}', 0) AS ip; -- 匹配格式如192.168.1.1 ``` 2. **清洗含杂质的日期字段** ```sql SELECT regexp_replace('2023年08月15日', '[年月日]', '-'); -- 结果:2023-08-15- -- 可进一步用TRIM处理末尾符号 ``` --- #### 四、注意事项 1. **转义字符**:Hive使用Java正则引擎,需用双反斜杠`\\`表示特殊符号,如`\\d` 2. **性能优化**:避免在`WHERE`条件中使用复杂正则,优先预处理数据 3. **边界控制**:使用`^`和`$`明确匹配范围,防止部分匹配导致错误
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值