在软件构造实验三中,我们为排班表应用添加了一个从文本中读取排班信息的功能
文本中给出的信息在格式上可能是错误的,如果我们直接拿来使用的话,当我们在后续的对文本信息进行解析的过程中,可能会出现很多不必要的麻烦
通过使用正则表达式,在对文本内容解析之前,先筛除掉格式错误的文本文件,可以很大程度上减少我们后续过程中的工作量
我总结了一下常用的正则表达式的元字符,并简单介绍了一下它们的含义
元字符 | 正则表达式中的写法 | 含义 |
---|---|---|
. | "." | 代表任意一个字符 |
\d | "\\d" | 代表0~9的任意一个数字 |
\D | "\\D" | 代表任意一个非数字字符 |
\s | "\\s" | 代表空白字符。如‘\t’、‘\n’ |
\\S | "\\S" | 代表非空白字符 |
\w | "\\w" | 代表可用作标识符的字符(不包括‘$’) |
\W | "\\W" | 代表不可用于标识符的字符 |
\p{Lower} | \\p{Lower} | 代表小写字母{a~z} |
\p{Upper} | \\p{Upper} | 代表大写字母{A~Z} |
\p{ASCII} | \\p{ASCII} | ASCII字符 |
\p{Alpha} | \\p{Alpha} | 字母字符 |
\p{Digit} | \\p{Digit} | 十进制数字 |
\p{Alnum} | \\p{Alnum} | 数字或字母字符 |
\p{Punct} | \\p{Punct} | 标点符号 |
\p{Graph} | \\p{Graph} | 可见字符 |
\p{Print} | \\p{Print} | 可打印字符 |
\p{Blank} | \\p{Blank} | 空格或制表符 |
\p{Cntrl} | \\p{Cntrl} | 控制字符 |
资料来源:《Java从入门到精通》,清华大学出版社,2019年10月第1版