正则表达式与文本处理全解析
1. POSIX 正则表达式基础
在正则表达式的世界里,POSIX 将其实现分为基本正则表达式(BRE)和扩展正则表达式(ERE)两类。支持 BRE 的应用程序能处理我们之前提到的那些特性,像 grep 程序就是如此。
BRE 和 ERE 的区别在于元字符。BRE 识别的元字符有:
^ $ . [ ] *
其他字符都被视为普通字符。而 ERE 在此基础上增加了以下元字符及其相关功能:
( ) { } ? + |
不过,在 BRE 中,如果对 “(”、“)”、“{” 和 “}” 这些字符使用反斜杠进行转义,它们也会被当作元字符;但在 ERE 中,给任何元字符加上反斜杠,它就会被当作普通字符。
POSIX 标准的诞生有其历史背景。20 世纪 80 年代,Unix 成为流行的商业操作系统,但到了 1988 年,Unix 世界陷入混乱。众多计算机制造商从 AT&T 获得 Unix 源代码授权,各自推出不同版本的操作系统,并添加了专有更改和扩展,这限制了软件的兼容性,这段时期被称为 “巴尔干化”。为了解决这个问题,IEEE 在 20 世纪 80 年代中期开始制定一系列标准,即 IEEE 1003,定义了类 Unix 系统的应用编程接口(APIs)、shell 和实用工具。“POSIX” 这个名字由 Richard Stallman 提出,意为可移植操作系统接口。
正则表达式与文本处理的全面指南
超级会员免费看
订阅专栏 解锁全文

1406

被折叠的 条评论
为什么被折叠?



