脚本之正则表达式

最新推荐文章于 2024-04-17 00:59:18 发布

原创最新推荐文章于 2024-04-17 00:59:18 发布 · 776 阅读

CC 4.0 BY-SA版权

文章标签：

5 篇文章

订阅专栏

本文介绍了正则表达式的基础概念，包括其定义、用途及原理，并详细解释了元字符、字符集、子表达式等核心元素的应用场景。

所谓的正则表达式就是一个描述某些字符串匹配规则的工具，使用其中的元字符可以更好的去匹配想要得到的字符。以便更好的对字符串的处理。

主要目的就是匹配文本。但是对于正则表达式的使用需要配合一些根据使用来增强处理文本的功能，例如：grep，sed，awk，more，less，vi等。

正则表达式是文本过滤的工具，通过元字符配合其他的字符来表达出一种规则，只有符合该规则的文本才能保留下来。如下图所示：

基本正则表达式是标准的正则表达式，是最早定制的正则表达式，仅支持最基本的字符集，是POSIX规范定制的两种正则表达式语法之一，另一个就是扩展正则表达式。

注意：

^ $表示空字符，^cat$ 表示字符cat
*或.位于[] 后依然可以当做元字符，不会变成普通字符，亲测。
*或.位于[] 中依然可以当做元字符，不会变成普通字符，亲测。
{m,n} 由于*只能匹配任意的，不能确切的匹配到固定的个数，此时该元字符就发挥到作用了。
- 例如：egrep “[^adc[:digit:]{1,3}”
{n}前置字符出现n次。
{m,}前置字符最少出现m次。
- 例如：egrep “[800-[:digit:]{3}-[[:digit:]]{4}$” filename

扩展正则表达式支持比基本正则表达式更多的元字符，但是扩展正则表达式的元字符基本正则表达式并不支持，其新增的元字符为:

+ 与* 基本相同，就是+前面的字符至少出现1次
？与+相对，最多出现一次
| 与（） 表示多个正则表达式之间或的关系
- 语法为：exp1 | exp2 |exp3|…|通常与（配合使用（exp1 | exp2 |exp3|…|）
- 例如：ls /etc | egrep “（ssh|ssl|^yum）列出含有字符串ssh或ssl或者以yum开头的文件。

注意：当使用扩展的正则表达式时，需要使用egrep执行，grep不支持哦。

注意：在使用时需要再一次加上[]，如：[[:digit:]]

例如test.txt文本：

jingtikai sjhi
sd dsfsdf
jingjing  isdjid
hahahah

我想要得到”jing”或”ha”出现两次的行，这时候就需要使用cat test.txt | egrep “(jing|ha){2}”就OK。