用于抓取网页内容的常用正则

本文详细介绍了在网页抓取过程中常用的正则表达式规则,包括CSS背景图片、图片标签、图片背景、Flash地址、IFrame链接及超链接的抓取方法。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

下面列出在抓取网页中常用的正则规则,其中$content代表网页内容,$tmparray为抓取的结果存储数组。

抓取HTML中CSS里背景图片地址
preg_match_all('/(background|background-image):url\([\"\']?([^\)]+)[\"\']?\)/i', $content, $tmparray);

抓取HTML中图片标签中的地址
preg_match_all('/<img[^>]+src=[\"\']{1}([^\"\'\s]+)[\"\']{1}[^>]+>/i', $content, $tmparray);

抓取HTML中图片背景地址

preg_match_all('/background=[\"\']?([^\"\'\s>]+)[\"\']?/i', $content, $tmparray);

抓取HTML中的Flash地址

preg_match_all('/<embed[^>]+src=[\"\']{1}(([^\"\'\s]+)\.swf)[\"\']{1}[^>]+>/i', $content, $tmparray);

抓取HTML中的iframe的链接地址
preg_match_all('/<iframe[^>]+src=[\"\']?([\w\-\/\.]+)[\"\']?[^>]+><\/iframe>/i', $content, $tmparray);

抓取HTML中的超链接地址
preg_match_all('/<a[^>]+href=[\"\']{1}([^>\"\']+)[\"\']?[^>]+>([^<]+)<\/a>/i', $content, $iframeurlarray);

以上分别为CSS背景图片、图片标签、图片背景、FLASH地址、IFRAME地址、超链接地址 的抓起正则。


本文来自优快云博客,转载请标明出处:http://blog.youkuaiyun.com/fafa211/archive/2009/12/23/5061832.aspx
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值