Hive正则表达式基础用法及应用
一、核心函数速览
函数/操作符 | 用途 | 返回值 |
---|---|---|
REGEXP_EXTRACT(str, pattern, index) |
提取匹配的子字符串 | 字符串 |
REGEXP_REPLACE(str, pattern, repl) |
替换匹配的文本 | 字符串 |
RLIKE 或 REGEXP |
判断是否匹配模式 | BOOLEAN |
二、六大基础场景实战
1. 数据提取(提取日志中的日期)
场景:从混杂的日志文本中提取日期
SELECT REGEXP_EXTRACT( 'ERROR 2023-07-15 14:30: [System] Disk full', '(\\d{4}-\\d{2}-\\d{2})', 1 ) AS log_date;
输出:2023-07