正则表达式是一种可供Linux工具过滤文本的自定义模板,Linux工具(如sed、gawk)会在读取数据时使用正则表达式对数据进行模式匹配。
正则表达式使用元字符来描述数据流中的一个或多个字符。它是由正则表达式引擎实现的。正则表达式引擎是一种底层软件,负责解释正则表达式并用这些模式进行文本匹配。
最流行的正则表达式引擎有两种:
POSIX基础正则表达式(basic regular expression,BRE)引擎;
POSIX扩展正则表达式(extended regular expression,ERE)引擎。
一、BRE模式
最基本的BRE模式是匹配数据流中的文本字符。
1、普通文本
正则表达式匹配的第一条原则:区分大小写。
正则表达式中也可以使用空格和数字:
2、特殊字符
正则表达式能识别的特殊字符如下:
* [] ^ $ {} \ + ? | ()
如果要将某个特殊字符视为普通字符,则必须用反斜线(\)将其转义。
# 匹配文本中的美元符号$
sed -n '/\$/p' test1.txt
转义反斜线(\):
正斜线(/) 虽然不属于正则表达式中的特殊字符,但也需要进行转义,否则会报错。
3、锚点字符
有两个特殊字符可以用来将正则表达式模式锁定在数据流中的行首或者行尾,这两个特殊字符被称为锚点字符。
锚定行首
脱字符(^)可以指定位于数据流中文本行行首的模式,如果模式出现在行首之外的其它地方,则正则表达式无法匹配。
使用脱字符时必须将其置于正则表达式之前。