抓取文章内容

本文介绍了一种使用PHP实现的网页爬虫程序,该程序通过发送HTTP请求获取指定URL的内容,并利用正则表达式从HTML源码中抽取所需信息,如标题、摘要、发布时间等。文章详细展示了爬虫的具体实现过程,包括使用cURL发起网络请求、正则匹配关键字段的方法。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

function actionHaha(){




   header('content-type:text/html;charset=gbk');
   $obj=M('caiji');
   $data1=array();

    //$b=0;

//下面这两行用来实时输出的

   ob_end_clean();
   ob_implicit_flush(1);
   for($a=10986;$a<13073;$a++){
      $url="http://www.jtyxzz.com/portal.php?mod=view&aid=".$a;
      $arr=$this->file_from_url_content($url);


      //var_dump($arr);exit;
      $regex4="/<h1 class=\"ph\">.*?<\/h1>/";//标题
      $regex5="/<p class=\"xg1\">[\s\S]*?<\/p>/";//时间等
      $regex6="/<div class=\"s\">[\s\S]*?<\/div>/"; //摘要
      $regex7="/<table cellpadding=\"0\" cellspacing=\"0\" class=\"vwtb\">[\s\S]*?<\/table>/";
      $regex8="/<div id=\"pt\" class=\"bm cl\">[\s\S]*?<\/div>/";//所属栏目
      preg_match($regex5,$arr,$result1);
      preg_match($regex4,$arr,$result);
      preg_match($regex6,$arr,$result2);
      preg_match($regex7,$arr,$result3);
      preg_match($regex8,$arr,$result4);
       $b=$a/500;
      if(is_int($b)){//让其抓取500条休息一会免得服务器将自己电脑IP屏蔽
         echo $a;
         sleep(rand(30,50));
      }
      if($result){
         $data=array(
                'id'=>$a,
               'title'=>iconv('GBK','UTF-8',$result[0]),
               'description'=>iconv('GBK','UTF-8',$result2[0]),
               'zaxia'=>iconv('GBK','UTF-8',$result1[0]),
               'content'=>iconv('GBK','UTF-8',$result3[0]),
               'cate'=>iconv('GBK','UTF-8',$result4[0])
         );


              $re=$obj->create($data);
         if(!$re){
            //var_dump($data);exit;
            echo $a.'tianjiashibai';
            echo '<br/>';
         }
         $data1[]=$data;


      }else{
         echo $a.'id no wenzhang or no permit';
         echo '<br/>';
      }
   }
   echo  '抓取完毕';exit;




}




/**
 * 异步将远程链接上的内容
 * @param unknown $url 远程地址
 * @param unknown $saveName 保存在服务器上的文件名
 * @param unknown $path 保存路径
 * @return boolean
 */
function file_from_url_content($url) {
   // 设置运行时间为无限制
   set_time_limit ( 0 );
   $url = trim ( $url );
   $curl = curl_init ();
   // 设置你需要抓取的URL
   curl_setopt ( $curl, CURLOPT_URL, $url );
   // 设置header
   curl_setopt ( $curl, CURLOPT_HEADER, 0 );
   // 设置cURL 参数,要求结果保存到字符串中还是输出到屏幕上。
   curl_setopt ( $curl, CURLOPT_RETURNTRANSFER, 1 );
   // 运行cURL,请求网页
   $file = curl_exec ( $curl );
   // 关闭URL请求
   curl_close ( $curl );
   return $file;
}
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值