目录
前言
本文我们来详细介绍一下正则表达式,以及在Hive中通过正则匹配抽取、替换字符串的函数:
1. regexp_extract
2. regexp_replace
1. 正则表达式简介
1.1 定义
正则表达式(Regular Expression,在代码中常Hive简写为regexp),又称规则表达式,是计算机科学的一个概念。正则表达式通常被用来检索、替换那些符合某个模式(规则)的文本。
1.2 字符构成
正则表达式由一些普通字符和一些元字符组成。普通字符包括大小写的字母和数字,而元字符则具有特殊的含义,我们下面解释。在最简单的情况下,一个正则表达式看上去就是一个普通的查找串。例如,正则表达式"testing"中没有包含任何元字符,它可以匹配"testing"、"testing123"、"123testing"等任何包含"testi