/*模拟爬虫*/----------exec

本文介绍了一种使用正则表达式从HTML文本中提取链接的方法,并提供了具体的JavaScript实现示例。通过匹配特定的HTML标签,可以有效地抓取网页上的所有链接。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

/*模拟爬虫*/
var html='<link rel="stylesheet" href="index.css"/><h1>标题一</h1><a class="curr" href="http://tmooc.cn">go to tmooc</a><a name="top"></a><span>不能为空</span><a href="http://tedu.cn" target="_blank">go to tedu</a><div>panel</div>';
var reg=/<a\s+([^>]*?)href=['"](.*?)['"](.*?)>(.*?)<\/a>/ig;
var arr=null;//接住本次找到的a元素
var urls=[];//保存本次找到的a
//先调用reg的exec查找HTML中的a,将结果保存在arr中,再和null比较
while((arr=reg.exec(html))!=null){
//将本次找到的a的第二个分组对应的内容,压入urls
urls.push(RegExp.$2);
}

console.log(urls.join("\n"));


['"]:双引号或单引号

.   :单独一个点是除换行符以外的所有字符

.*  :大白话说就是无限制的字符

?就是截止的意思

<\/a>/ig;  :因为有2个/,所以在/前面加\就OK了。

正则表达式:/内容/

\s  :空格 


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值