/模拟爬虫/----------exec

最新推荐文章于 2025-11-26 12:13:12 发布

原创最新推荐文章于 2025-11-26 12:13:12 发布 · 313 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#exec

web-javascript 专栏收录该内容

93 篇文章

订阅专栏

本文介绍了一种使用正则表达式从HTML文本中提取链接的方法，并提供了具体的JavaScript实现示例。通过匹配特定的HTML标签，可以有效地抓取网页上的所有链接。

/*模拟爬虫*/
var html='<link rel="stylesheet" href="index.css"/><h1>标题一</h1><a class="curr" href="http://tmooc.cn">go to tmooc</a><a name="top"></a><span>不能为空</span><a href="http://tedu.cn" target="_blank">go to tedu</a><div>panel</div>';
var reg=/<a\s+([^>]*?)href=['"](.*?)['"](.*?)>(.*?)<\/a>/ig;
var arr=null;//接住本次找到的a元素
var urls=[];//保存本次找到的a
//先调用reg的exec查找HTML中的a，将结果保存在arr中，再和null比较
while((arr=reg.exec(html))!=null){
//将本次找到的a的第二个分组对应的内容，压入urls
urls.push(RegExp.$2);
}

console.log(urls.join("\n"));

['"]：双引号或单引号

. ：单独一个点是除换行符以外的所有字符

.* ：大白话说就是无限制的字符

？就是截止的意思

<\/a>/ig; :因为有2个/，所以在/前面加\就OK了。

正则表达式：/内容/

\s ：空格