Hive中正则表达式替换函数 regexp_replace和正则表达式解析函数 regexp_extract的用法总结

最新推荐文章于 2025-03-15 13:31:40 发布

原创最新推荐文章于 2025-03-15 13:31:40 发布 · 2.4w 阅读

70 ·

CC 4.0 BY-SA版权

文章标签：

#hive #正则表达式 #regexp_replace #regexp_extract #捕获分组

Hive 专栏收录该内容

4 篇文章

订阅专栏

本文介绍了Hive中的正则表达式替换函数regexp_replace和正则表达式解析函数regexp_extract的用法，包括函数语法、参数说明及实例测试，特别是对捕获分组的概念进行了讲解。

部署运行你感兴趣的模型镜像

Hive中正则表达式替换函数 regexp_replace和正则表达式解析函数 regexp_extract的用法总结

Hive中有很多字符串相关的函数，其中有两个与正则表达式相关的比较特殊，近期使用的时候做了较多的测试，做个笔记，鼓励一下自己，每天进步一点点。

正则表达式替换函数 regexp_replace

正则替换是常用的字符串替换函数

语法：regexp_replace(string subject, string pattern, string str)
参数说明：subject为被替换的字符串，pattern为正则表达式，str为替换正则表达式(匹配到的字符串)的字符串
描述：将字符串subject中，符合正则表达式pattern的字符串，替换为字符串str，然后将替换后的整个字符串返回
测试：

#执行语句1
hive> select regexp_replace('abcdefg','abc','ABA') as res;
#执行结果1
res
ABAdefg
Time taken: 0.041 seconds, Fetched: 1 row(s)

#执行语句2
hive> select regexp_replace('abcdefg','[^aceg]','x') as res;
#执行结果2
res
axcxexg
Time taken: 0.028 seconds, Fetched: 1 row(s)

正则表达式解析函数 regexp_extract

先了解正则中捕获分组的概念，其实就是一个括号内的内容，如 “(\d)\d” 而"(\d)" 这就是一个捕获分组

语法：regexp_extract(string subject, string pattern, int index)
参数说明：subject为被解析的字符串，pattern为正则表达式，index为正则表达式中捕获分组的序号，取值范围是0~n(n为捕获分组个数)。
其中，index取值为 0：返回pattern匹配到的整个结果；
index取值为1：返回pattern中第1个捕获分组匹配到的结果；
…
index取值为n：返回pattern中第n个捕获分组匹配到的结果；
index取值小于0或者大于n：报错。
描述：将字符串subject，按照pattern正则表达式的规则拆分，返回index指定的字符。
测试：

#执行语句1
hive> select regexp_extract('abcdefg','a(b)(.*?)(e)',0) as res;
#执行结果1
res
abcde
Time taken: 0.035 seconds, Fetched: 1 row(s)

#执行语句2
hive> select regexp_extract('abcdefg','a(b)(.*?)(e)',1) as res;
#执行结果2
res
b
Time taken: 0.032 seconds, Fetched: 1 row(s)

#执行语句3
hive> select regexp_extract('abcdefg','a(b)(.*?)(e)',2) as res;
#执行结果3
res
cd
Time taken: 0.028 seconds, Fetched: 1 row(s)

#执行语句4
hive> select regexp_extract('abcdefg','a(b)(.*?)(e)',3) as res;
#执行结果4
res
e
Time taken: 0.028 seconds, Fetched: 1 row(s)

#执行语句5
hive> select regexp_extract('abcdefg','a(b)(.*?)(e)',4) as res;
#执行结果5
FAILED: SemanticException [Error 10014]: Line 1:7 Wrong arguments '4': org.apache.hadoop.hive.ql.metadata.HiveException: Unable to execute method public java.lang.String org.apache.hadoop.hive.ql.udf.UDFRegExpExtract.evaluate(java.lang.String,java.lang.String,java.lang.Integer)  on object org.apache.hadoop.hive.ql.udf.UDFRegExpExtract@571d0925 of class org.apache.hadoop.hive.ql.udf.UDFRegExpExtract with arguments {abcdefg:java.lang.String, a(b)(.*?)(e):java.lang.String, 4:java.lang.Integer} of size 3

#执行语句6
hive> select regexp_extract('abcdefg','a(b)(.*?)(e)',-1) as res;
#执行结果6
FAILED: SemanticException [Error 10014]: Line 1:7 Wrong arguments '1': org.apache.hadoop.hive.ql.metadata.HiveException: Unable to execute method public java.lang.String org.apache.hadoop.hive.ql.udf.UDFRegExpExtract.evaluate(java.lang.String,java.lang.String,java.lang.Integer)  on object org.apache.hadoop.hive.ql.udf.UDFRegExpExtract@14201a90 of class org.apache.hadoop.hive.ql.udf.UDFRegExpExtract with arguments {abcdefg:java.lang.String, a(b)(.*?)(e):java.lang.String, -1:java.lang.Integer} of size 3

5.补充说明：如果 subject为空，或者pattern为空，或者pattern匹配不到字符串，则返回值为空

#1
hive> select regexp_extract('','ab',1) as res;
OK
res

Time taken: 0.044 seconds, Fetched: 1 row(s)

#2
hive> select regexp_extract('abcdefg','',0) as res;
OK
res

Time taken: 0.031 seconds, Fetched: 1 row(s)

#3
hive> select regexp_extract('abcdefg','a(bb)(.*?)(e)',0) as res;
OK
res

Time taken: 0.029 seconds, Fetched: 1 row(s)

您可能感兴趣的与本文相关的镜像

Stable-Diffusion-3.5

图片生成

Stable-Diffusion

Stable Diffusion 3.5 (SD 3.5) 是由 Stability AI 推出的新一代文本到图像生成模型，相比 3.0 版本，它提升了图像质量、运行速度和硬件效率

Hive中正则表达式替换函数 regexp_replace和正则表达式解析函数 regexp_extract的用法总结

Hive中 正则表达式替换函数 regexp_replace和正则表达式解析函数 regexp_extract的用法总结

正则表达式替换函数 regexp_replace

正则表达式解析函数 regexp_extract

Hive中正则表达式替换函数 regexp_replace和正则表达式解析函数 regexp_extract的用法总结