PHP curl函数详解,实现抓取原创内容

本文介绍了一个使用PHP CURL类模拟登录网站并抓取原创内容的方法。通过设置Cookie、模拟用户行为等手段,该方法能够有效绕过网站登录验证,获取所需数据。
    /*    
* 类用途: 实现抓取原创内容    
*/
class CURL     
 {       
 var $cookie_file;  // 设置Cookie文件保存路径及文件名      
 var $loginurl;//登陆地地址     
 var $actionstr;//登陆参数     
 function __construct()     
 {     
  $this->cookie_file=dirname(__FILE__)."/cookie_".md5(basename(__FILE__)).".txt";      
  if(!file_exists($this->cookie_file))     
   { // 检测Cookie是否存在         
   $str = $this->vget('jroam'); // 获取登录随机值         
   preg_match("/name=\"formhash\" value=\"(.*?)\"/is",$str,$hash); // 提取登录随机值        
   $this->vlogin($this->loginurl,$this->actionstr); // 登录获取Cookie         
  }      
 }     
                   
 function vlogin($url,$data){ // 模拟登录获取Cookie函数         
  $curl = curl_init(); // 启动一个CURL会话         
  curl_setopt($curl, CURLOPT_URL, $url); // 要访问的地址                     
  curl_setopt($curl, CURLOPT_SSL_VERIFYPEER, 0); // 对认证证书来源的检查         
  curl_setopt($curl, CURLOPT_SSL_VERIFYHOST, 1); // 从证书中检查SSL加密算法是否存在         
  curl_setopt($curl, CURLOPT_USERAGENT, $_SERVER['HTTP_USER_AGENT']); // 模拟用户使用的浏览器         
  curl_setopt($curl, CURLOPT_FOLLOWLOCATION, 1); // 使用自动跳转         
  curl_setopt($curl, CURLOPT_AUTOREFERER, 1); // 自动设置Referer         
  curl_setopt($curl, CURLOPT_POST, 1); // 发送一个常规的Post请求         
  curl_setopt($curl, CURLOPT_POSTFIELDS, $data); // Post提交的数据包         
  curl_setopt($curl, CURLOPT_COOKIEJAR, $this->cookie_file); // 存放Cookie信息的文件名称         
  curl_setopt($curl, CURLOPT_COOKIEFILE, $this->cookie_file); // 读取上面所储存的Cookie信息         
  curl_setopt($curl, CURLOPT_TIMEOUT, 30); // 设置超时限制防止死循环         
  curl_setopt($curl, CURLOPT_HEADER, 0); // 显示返回的Header区域内容         
  curl_setopt($curl, CURLOPT_RETURNTRANSFER, 1); // 获取的信息以文件流的形式返回         
  $tmpInfo = curl_exec($curl); // 执行操作         
  if (curl_errno($curl)) {         
     echo 'Errno'.curl_error($curl);         
  }         
  curl_close($curl); // 关闭CURL会话         
  return $tmpInfo; // 返回数据         
 }         
                     
 function vget($url){ // 模拟获取内容函数         
  $curl = curl_init(); // 启动一个CURL会话         
  curl_setopt($curl, CURLOPT_URL, $url); // 要访问的地址                     
  curl_setopt($curl, CURLOPT_SSL_VERIFYPEER, 0); // 对认证证书来源的检查         
  curl_setopt($curl, CURLOPT_SSL_VERIFYHOST, 1); // 从证书中检查SSL加密算法是否存在         
  curl_setopt($curl, CURLOPT_USERAGENT, $_SERVER['HTTP_USER_AGENT']); // 模拟用户使用的浏览器         
  curl_setopt($curl, CURLOPT_FOLLOWLOCATION, 1); // 使用自动跳转         
  curl_setopt($curl, CURLOPT_AUTOREFERER, 1); // 自动设置Referer         
  curl_setopt($curl, CURLOPT_HTTPGET, 1); // 发送一个常规的Post请求         
  curl_setopt($curl, CURLOPT_COOKIEFILE, $this->cookie_file); // 读取上面所储存的Cookie信息         
  curl_setopt($curl, CURLOPT_TIMEOUT, 30); // 设置超时限制防止死循环         
  curl_setopt($curl, CURLOPT_HEADER, 0); // 显示返回的Header区域内容         
  curl_setopt($curl, CURLOPT_RETURNTRANSFER, 1); // 获取的信息以文件流的形式返回         
  $tmpInfo = curl_exec($curl); // 执行操作         
  if (curl_errno($curl)) {         
     echo 'Errno'.curl_error($curl);         
  }         
  curl_close($curl); // 关闭CURL会话         
  return $tmpInfo; // 返回数据         
 }         
                     
 function vpost($url,$data){ // 模拟提交数据函数         
  $curl = curl_init(); // 启动一个CURL会话         
  curl_setopt($curl, CURLOPT_URL, $url); // 要访问的地址                     
  curl_setopt($curl, CURLOPT_SSL_VERIFYPEER, 0); // 对认证证书来源的检查         
  curl_setopt($curl, CURLOPT_SSL_VERIFYHOST, 1); // 从证书中检查SSL加密算法是否存在         
  curl_setopt($curl, CURLOPT_USERAGENT, $_SERVER['HTTP_USER_AGENT']); // 模拟用户使用的浏览器         
  curl_setopt($curl, CURLOPT_FOLLOWLOCATION, 1); // 使用自动跳转         
  curl_setopt($curl, CURLOPT_AUTOREFERER, 1); // 自动设置Referer         
  curl_setopt($curl, CURLOPT_POST, 1); // 发送一个常规的Post请求         
  curl_setopt($curl, CURLOPT_POSTFIELDS, $data); // Post提交的数据包         
  curl_setopt($curl, CURLOPT_COOKIEFILE, $this->cookie_file); // 读取上面所储存的Cookie信息         
  curl_setopt($curl, CURLOPT_TIMEOUT, 30); // 设置超时限制防止死循环         
  curl_setopt($curl, CURLOPT_HEADER, 0); // 显示返回的Header区域内容         
  curl_setopt($curl, CURLOPT_RETURNTRANSFER, 1); // 获取的信息以文件流的形式返回         
  $tmpInfo = curl_exec($curl); // 执行操作         
  if (curl_errno($curl)) {         
     echo 'Errno'.curl_error($curl);         
  }         
  curl_close($curl); // 关键CURL会话         
  return $tmpInfo; // 返回数据         
 }         
 function delcookie($cookie_file){ // 删除Cookie函数         
  @unlink($cookie_file); // 执行删除         
 }         
 }

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值