hive正则表达式匹配中文或者字符
regexp_replace()
案例1:
select regexp_replace('四川成都市A-17号','[^A-Za-z0-9\\u4e00-\\u9fa5]','');
结果:
四川成都市A17号
解释:
替换非字符(大小写),非数字和非中文的字符。
regexp_extract()
案例2:
select regexp_extract('四川成都市A-17号','[^A-Za-z0-9\\u4e00-\\u9fa5]',0);
结果:
-
解释:
匹配非字符(大小写),非数字和非中文的字符。
案例3:
select regexp_extract('四川成都市A-17号','[A-Za-z0-9\\u4e00-\\u9fa5]',0);
结果:
四
解释:
匹配第一个字符(大小写),数字和中文的字符。
案例4:
select regexp_extract('四川成都市A-17号','[^A-Za-z0-9\\u4e00-\\u9fa5]+',0);
结果:
四川成都市A
解释:
匹配多个字符(大小写),数字和中文的字符直到遇到非字符(大小写),非数字和非中文的字符。

本文详细介绍了Hive中正则表达式函数regexp_replace()和regexp_extract()的使用方法,通过具体案例展示了如何匹配和替换非字符、非数字及非中文字符,以及如何提取特定模式的字符。
1219

被折叠的 条评论
为什么被折叠?



