偶尔会使用 正则表达 编写一简单的shell脚本,这里记录下常用的字符,便于查询。
学习和使用正则表达式,主要是区分清楚几类字符就可以,字符主要分为:
- 普通字符(如:大小写字母、数字等);
- 元字符(有特殊含义的字符,即平时在网上或者书中查询到基本就属于这一类,也是正则表达式精髓所在);
其中元字符又可以大致分为下面3类
- 特殊普通字符(主要是方便查找普通字符合集,如:[:digit:])
- 特殊字符(如:()、[]、{}、|)使用时需要添加转移字符"\";
- 限定符(如:"*"(贪婪匹配)、"?"(非贪婪));
- 定位符(如:"^"(开始)、"$"(结尾));
举例:列出包含:aaaa-dddd-ddd 以及 (ddd)-dddd-ddd 的字符串,其中aaaa 表示4个大小写字母(即a-zA-Z),ddd表示3个数字(即0-9)。
一种解决方案如下:
egrep '([a-zA-Z]{4}|\([0-9]{3}\))-[0-9]{3}-[0-9]{4}' file.txt
考虑到第一个分隔符 "-" 前面的字符串是有差异的,因此可以使用 "( | )" 组合起来使用,其中:
#represent [:alpha:] repeat 4 times
[a-zA-Z]{4}
#represent [:digit:] repeat 3 times
[0-9]{3}
分隔符 "-" 前面的字符串组合到一起就是(注意:"|" 左右两边不能有空格,否则过滤出来的字符串也会包含空格):
#represent aaaa-X* or (ddd)-X*
([a-zA-Z]{4}|\([0-9]{3}\))
具体字符内容如下(请特别留意转移符号"\"和特殊字符之间不能有空格):
特殊普通字符
特殊字符 | 代表意义 |
[:alnum:] | 代表英文大小写字符l及数字,即0-9,A-Z,a-z |
[:alpha:] | 代表任何英文大小写字符 |
[:cntrl:] | 代表键盘上面的控制按键,包括CR,LF,Tab,Del...等 |
[:digit:] | 任何数字,即 0-9 |
[:lower:] | 代表任何小写字母,即 a-z |
[:upper:] | 任何大写字母,即 A-Z |
[:xdigit:] | 任何16进制的数字,相当于[0-9a-fA-F] |
[:blank:] | 代表空格与[Tab]按键两者 |
[:space:] | 代表任何产生空白的字符,包括空格键、[Tab]、CR等等 |
[:graph:] | 代表除了[:blank:] 外的其他所有按键 |
[:print:] | 代表任何可以被打印出来的字符 |
[:punct:] | 任何标点符号(punctuation symbol),即: " " ? ! ; : # $ % |
特殊字符
特殊字符 | 转义表达 | 特殊含义 |
---|---|---|
() | \(\) | 标记一个子表达式的开始和结束位置。子表达式可以获取供以后使用 |
()+ | \(\)\+ | 子表达式的扩展,有一个或者多个 |
$ | \$ | 匹配输入字符串的结尾位置 |
* | \* | 匹配前面的子表达式 0次或多次,等价于{0,} |
+ | \+ | 匹配前面的子表达式 1次或多次,等价于{1,} 属于贪婪模式,贪婪模式则尽可能多地匹配所搜索的字符串 |
. | \. | 匹配除换行符 \n 之外的任何单字符 |
[ ] | \[\] | 标记一个中括号表达式的开始。要匹配 [,请使用 [。 |
? | \? | 匹配前面的子表达式零次或一次,或指明一个非贪婪限定符。非贪婪模式是尽可能少地匹配所搜索的字符串 |
\ | \\ | 将下一个字符标记为或特殊字符、或原义字符、或向后引用、或八进制转义符 |
^ | \^ | 匹配输入字符串的开始位置,除非在方括号表达式中使用,当该符号在方括号表达式中使用时,表示不接受该方括号表达式中的字符集合 如:[^list] 表示排除 list 字符 |
| | \| | 指明两项之间的一个选择,通常会和 () 配合使用 |
限定符
限定符 | 转移表达 | 含义 |
---|---|---|
* | \* | 出现次数>=0 |
+ | \+ | 出现次数>=1 |
? | \? | 出现次数 0 or 1, 等价{0,1} |
{n} | \{ | 出现次数=n |
{n,} | \{n,\} | 出现次数>=n |
{n, m} | \{n, m\} | n=< 出现次数<= m |
定位符
定位符 | 含义 |
---|---|
^ | 字符串开始的位置,用在[^list] 中,则表示 |
$ | 字符串结束的位置 |
\b | 限定单词(字)的字符,常用来确定一个单词,可以结合两个‘\b’使用 |
\B | 限定非单词(字)边界的字符 |
参考:
《鸟哥的Linux私房菜 基础学习篇(第三版)》