SHELL基础知识-正则表达式

最新推荐文章于 2023-06-29 23:39:33 发布

原创最新推荐文章于 2023-06-29 23:39:33 发布 · 597 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#正则表达式 #unix #bash

shell-基础知识专栏收录该内容

26 篇文章

订阅专栏

正则表达式是一种字符模式，用于匹配指定字符。在Unix工具和多种编程语言中广泛使用。它可以用于匹配邮箱、身份证号等，通过元字符和特定规则实现复杂字符串操作。掌握元字符、前导字符以及正则表达式的基本原则，能帮助你轻松处理各种正则需求。

1. 正则表达式是什么？

正则表达式（Regular Expression、regex或regexp，缩写为RE），也译为正规表示法、常规表示法，是一种字符模式，用于在查找过程中==匹配指定的字符==。

许多程序设计语言都支持利用正则表达式进行字符串操作。例如，在Perl中就内建了一个功能强大的正则表达式引擎。

正则表达式这个概念最初是由Unix中的工具软件（例如sed和grep）普及开的。

支持正则表达式的程序如：locate |find| vim| grep| sed |awk

2. 正则能干什么？

匹配邮箱、匹配身份证号码、手机号、银行卡号等
匹配某些特定字符串，做特定处理等等

3. 正则当中名词解释

元字符

指那些在正则表达式中具有特殊意义的==专用字符==,如:点(.) 星(*) 问号(?)等
前导字符

位于元字符前面的字符. ab==c==* aoo==o==.

##4. 第一类正则表达式

㈠正则中普通常用的元字符

元字符	功能	备注
.	匹配除了换行符以外的==任意单个==字符
*	==前导字符==出现==0==次或==连续多次==
.*	任意长度字符	ab.*
^	行首(以...开头)	^root
$	行尾(以...结尾)	bash$
^$	空行
[]	匹配括号里任意单个字符或一组单个字符	[abc]
[^]	匹配不包含括号里任一单个字符或一组单个字符	[^abc]
^[]	匹配以括号里任意单个字符或一组单个字符开头	^[abc]
\^[\^]	匹配不以括号里任意单个字符或一组单个字符开头	\^[^abc]

示例文本

# cat 1.txt
ggle
gogle
google
gooogle
goooooogle
gooooooogle
taobao.com
taotaobaobao.com

jingdong.com
dingdingdongdong.com
10.1.1.1
Adfjd8789JHfdsdf/
a87fdjfkdLKJK
7kdjfd989KJK;
bSKJjkksdjf878.
cidufKJHJ6576,

hello world
helloworld yourself

㈡正则中其他常用元字符

元字符	功能	备注
\<	取单词的头
\>	取单词的尾
\< \>	精确匹配
\{n\}	匹配前导字符==连续出现n次==
\{n,\}	匹配前导字符==至少出现n次==
\{n,m\}	匹配前导字符出现==n次与m次之间==
	保存被匹配的字符
\d	匹配数字（grep -P）	[0-9]
\w	匹配字母数字下划线（grep -P）	[a-zA-Z0-9_]
\s	匹配空格、制表符、换页符（grep -P）	[\t\r\n]

举例说明：

需求：将10.1.1.1替换成10.1.1.254

1）vim编辑器支持正则表达式
# vim 1.txt
:%s#\(10.1.1\).1#\1.254#g 
:%s/\(10.1.1\).1/\1.254/g 

2）sed支持正则表达式【后面学】
# sed -n 's#\(10.1.1\).1#\1.254#p' 1.txt
10.1.1.254

说明：
找出含有10.1.1的行，同时保留10.1.1并标记为标签1，之后可以使用\1来引用它。
最多可以定义9个标签，从左边开始编号，最左边的是第一个。


需求：将helloworld yourself 换成hellolilei myself

# vim 1.txt
:%s#\(hello\)world your\(self\)#\1lilei my\2#g

# sed -n 's/\(hello\)world your\(self\)/\1lilei my\2/p' 1.txt 
hellolilei myself

# sed -n 's/helloworld yourself/hellolilei myself/p' 1.txt 
hellolilei myself
# sed -n 's/\(hello\)world your\(self\)/\1lilei my\2/p' 1.txt 
hellolilei myself

Perl内置正则：
\d      匹配数字  [0-9]
\w      匹配字母数字下划线[a-zA-Z0-9_]
\s      匹配空格、制表符、换页符[\t\r\n]

# grep -P '\d' 1.txt
# grep -P '\w' 2.txt
# grep -P '\s' 3.txt

举例说明：

# grep "root|ftp|adm" /etc/passwd
# egrep "root|ftp|adm" /etc/passwd
# grep -E "root|ftp|adm" /etc/passwd

# grep -E 'o+gle' test.txt 
# grep -E 'o?gle' test.txt 

# egrep 'go{2,}' 1.txt
# egrep '(my|your)self' 1.txt


使用正则过滤出文件中的IP地址：
# grep '[0-9]\{2\}\.[0-9]\{1\}\.[0-9]\{1\}\.[0-9]\{1\}' 1.txt 
10.1.1.1
# grep '[0-9]{2}\.[0-9]{1}\.[0-9]{1}\.[0-9]{1}' 1.txt 
# grep -E '[0-9]{2}\.[0-9]{1}\.[0-9]{1}\.[0-9]{1}' 1.txt 
10.1.1.1
# grep -E '[0-9]{1,3}\.[0-9]{1,3}\.[0-9]{1,3}\.[0-9]{1,3}' 1.txt 
10.1.1.1
# grep -E '([0-9]{1,3}\.){3}[0-9]{1,3}' 1.txt 
10.1.1.1

5. 第二类正则

表达式	功能	示例
[:alnum:]	字母与数字字符	[[:alnum:]]+
[:alpha:]	字母字符(包括大小写字母)	[[:alpha:]]{4}
[:blank:]	空格与制表符	[[:blank:]]*
[:digit:]	数字	[[:digit:]]?
[:lower:]	小写字母	[[:lower:]]{4,}
[:upper:]	大写字母	[[:upper:]]+
[:punct:]	标点符号	[[:punct:]]
[:space:]	包括换行符，回车等在内的所有空白	[[:space:]]+

[root@server shell05]# grep -E '^[[:digit:]]+' 1.txt
[root@server shell05]# grep -E '^[^[:digit:]]+' 1.txt
[root@server shell05]# grep -E '[[:lower:]]{4,}' 1.txt

6. 正则表达式总结

把握一个原则，让你轻松搞定可恶的正则符号：

我要找什么？
- 找数字 [0-9]
- 找字母 [a-zA-Z]
- 找标点符号 [[:punct:]]
我要如何找？看心情找
- 以什么为首 ^key
- 以什么结尾 key$
- 包含什么或不包含什么 [abc] \^[abc] [\^abc] \^[\^abc]
我要找多少呀？
- 找前导字符出现0次或连续多次 ab==*==
- 找任意单个(一次)字符 ab==.==
- 找任意字符 ab==.*==
- 找前导字符连续出现几次 {n} {n,m} {n,}
- 找前导字符出现1次或多次 go==+==
- 找前到字符出现0次或1次 go==?==