正则表达式表达式通常用于判断语句中,用来检查某一字符串是否符合某一格式。正则表达式是含有一些特殊意义的字符串,这些特殊字符称为正则表达式的元字符。例如:“\\d”代表数字0~9中的任何一个,“\d”就是元字符。
正则表达式中的元字符
元字符 | 正则表达式中的写法 | 意义 |
. | . | 任意一个字符 |
\d | \\d | 0~9的任何一个数字 |
\D | \\D | 任何一个非数字字符 |
\s | \\s | 空白字符 如:’\t’ ‘\n’ |
\S | \\S | 非空白字符 |
\w | \\w | 可做标识符的字符,不包括$ |
\W | \\W | 不可做标识符的字符 |
\p{Lower} | \\p{Lower} | 小写字母a~z |
\p{upper} | \\p{upper} | 大写字母A~Z |
\p{ASCII} | \\p{ASCII} | ASCII字符 |
\p{Alpha} | \\p{Alpha} | 字母字符 |
\p{Digit} | \\p{Digit} | 十进制数, 0~9 |
\p{Alnum} | \\p{Alnum} | 数字或字母字符 |
\p{Punct} | \\p{Punct} | 标点符号:!”#$%&’()*+,-等 |
\p{Graph} | \\p{Graph} | 可见字符[\p{Alnum}\p{Punct}] |
\p{Print} | \\p{Print} | 可打印字符[\p{Graph}\x20] |
\p{Blank} | \\p{Blank} | 空格或制表符[\t] |
\p{Cntrl} | \\p{Cntrl} | 控制字符[\x00-\x1F\x7F] |
注意:在正则表达式中 ”.” 代表任何一个字符,因此在正则表达式中如果想使用普遍意义的点字符 “.” , 必须使用转义字符 ”\“.
在正则表达式中可以使用方括号括起来若干个字符来表示一个元字符,该元字符可代表方括号中的任意一个字符。 例如:reg = “[abc]4” , 这样字符串a4 , b4 , c4, 都是和正则表达式匹配的字符串。方括号元字符还可以为其他格式。如:
- [^456] : 代表4,5,6之外的任意字符;
- [a-r] : 代表a~r 中的任何一个字母;
- [a-zA-Z] : 代表任意一个英文字母;
- [a-e[g-z]] : 代表a~e, 或 g~ z 中的任何一个字母(并运算);
- [a-o&&[def]] : 代表d, e, f(交运算);
- [a-d&&[^bc]] : 代表字母a,d(差运算);
在正则表达式中允许使用限定修饰符来限定元字符出现的次数。如:A*,代表A可在字符串中出现0次或者多次。
限定修饰符
限定修饰符 | 意义 | 示例 |
? | 0次或1次 | A? |
* | 0次或多次 | A* |
+ | 一次或多次 | A+ |
{} | 正好出现n次 | A{2} |
{n,} | 至少出现n次 | A{3,} |
{n,m} | 出现n~m次 | A{2,6} |
例如:使用正则表达式来判断指定的变量为合法的E-mail地址。