HTML解析之一:正则表达式

本文介绍了正则表达式的入门知识,包括元字符的作用、字符转义、重复、字符集合和分支条件等内容,并通过实例帮助读者理解如何使用这些概念。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

一:入门小例子
\bwe\b匹配we
\b 是元字符,不代表空格,标点符号,换行,只是用来匹配位置

. 元字符,匹配除换行符的任意字符
* 元字符,匹配数量
.* 匹配任意数量的不换行字符


二:常用元字符
四种作用:匹配字符,匹配位置,匹配数量,匹配模式
. 匹配除换行符的任意字符
\b 匹配单词的开始或结束
\d 匹配数字
\w 匹配字母,数字,下划线或汉字
\s 匹配任意空白符,包括空格,制表符,换行符,中文全角空格等
^ 匹配字符串的开始
$ 匹配字符串的结束

例题:we are still studying and so busy
匹配出所有以s开头的单词
表达式:\bs\w*\b
匹配顺序:先是某个单词开始处(\b),
          然后是字母s,
          然后是任意数量的字母或数字(\w*)
          最后是单词结束处(\b)

三:字符转义:查找元字符本身需要用字符转义
\ 消除转义
查找 . 、 \  *  时,用 \.   \\   \*  匹配
匹配www.google.com  用 www\.google\.com

四:重复
*      重复零次或多次
+      重复一次或更多次
?     重复一次或零次
{n}    重复n次
{n,}   重复n次或更多次
{n,m}  重复n到m次

hello\d+    匹配hello后面跟1个或更多数字,例如可以匹配hello1,hello10等
^\d{5,12}$  匹配5到12个数字的字符串,例如QQ号码
we\d?       匹配we后面跟0个或者1个数字,例如we,we0

五:字符集合
通过[]来匹配自定义字符集合
[abcde]匹配abcde中的任意一个字符
[.?!]匹配标点符号 .?!

通过[]也可以匹配一个字符范围
[0-9]标识的含义与\d完全一致,表示匹配数字
[a-z0-9A-Z]匹配字母或数字

六:分支条件
指,有几种匹配规则,满足其中任意一种规则都应当匹配,用|把不同规则分隔开
匹配分支条件时,将会从左到右测试每个条件,如果满足某个分支的话,就不会匹配其他条件

七:分组





评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值