1,正则匹配(file_get_contents)
下面我们先模拟一个搜狐的网站进行采集一下,下面是代码,方便各位随时使用呦!
$url="http://www.baidu.com/";//写一个搜狐的网址,采集之前一定要确定有网络呦! $con=file_get_contents("compress.zlib://".$url);//为了防止乱码,要在前面拼上“compress.zlib: print_r($con);exit;
下面我们来看看搜狐页面的部分采集
//正则匹配规则$url="http://www.sohu.com/";//写一个搜狐的网址,采集之前一定要确定有网络呦!
$con=file_get_contents("compress.zlib://".$url);//为了防止乱码,要在前面拼上“compress.zlib"
$preg="#<title>(.*)</title>#isU";//正则的规则是寻找一个title标签的内容 preg_match_all( $preg,$con,$result);//php正则表达式 print_r($result);exit;运行下面这个试试吧:试试采集一下不同的标签
$url="http://www.sohu.com/";//写一个搜狐的网址,采集之前一定要确定有网络呦! $con=file_get_contents("compress.zlib://".$url);//为了防止乱码,要在前面拼上“compress.zlib:
$preg='#<a data-clev=".*" target="_blank" href="(.*)">(.*)</a>#isU'; preg_match_all($preg,$con,$res); print_r($res);exit;接下来到了提问的时间了,给大家解释一下“.*”是匹配全部 i,s,u的意思分别是
i是将正则表达式取消大小写的敏感性
s 模式中的圆点元字符(.)匹配所有的字符,包括换行符
U (PCRE_UNGREEDY) 本修正符反转了匹配数量的值使其不是默认的重复,
而变成在后面跟上“?”才变得重复。这和 Perl 不兼容。也可以通过在模式之中设定 (?U) 修正符来启用此选项。
关于#暂时还莫有标准的解释,知道的盆友们留言评论呦
2,CURL采集:(直接可以运行呦)
<?php $url="http://www.baidu.com/"; $ch = curl_init(); //1.初始化 curl_setopt($ch, CURLOPT_URL, $url); //2.请求地址 curl_setopt($ch, CURLOPT_CUSTOMREQUEST, "GET");//3.请求方式,请求方式默认是get curl_setopt($ch, CURLOPT_RETURNTRANSFER, true); $tmpInfo = curl_exec($ch);//6.执行 if (curl_errno($ch)) {//7.如果出错 return curl_error($ch); } curl_close($ch);//8.关闭 var_dump($tmpInfo);
网页数据抓取实战
本文介绍如何使用PHP的file_get_contents及CURL方法从搜狐网站抓取数据,并演示了正则表达式的应用,如匹配标题及带有特定属性的链接。
160

被折叠的 条评论
为什么被折叠?



