抓取并处理WEB页面数据(CURL/DOM)

      昨天面试,让写一个小脚本,抓取http://www.newegg.com.cn相关产品的数据。以下是笔者的实现思路。

笔者要从以下两方面入手分析:

1. 如何提交数据
      首先是接受数据表单所在的页面,一般都是首页。其次,分析表单是通过POST还是GET提交数据,新蛋使用的是GET提交数据。最后,如果使用的是GET方法,那么需要找到参数所附的URL是什么,新蛋的是http://www.newegg.com.cn/Product/ProductSearchAdvanced.aspx

2. 返回数据的结构
      根据查看返回的源代码,笔者认为,新蛋返回的数据结构比较清晰。比如,产品列表块儿就有id标识,而产品标题使用h3标识,这些都方便了DOM解析。

      经过笔者简单分析,用不到POST传递参数,那么FOPEN()/cURL/SOCKET均可实现数据抓取(三者区别笔者会在后续的博文中详述),这里采用cURL技术;而数据的处理,可以使用正则表达式和DOM类来实现,由于数据结构清晰,使用DOM类足够,正则表达式同样可以做到,但是效率不高(关于正则表达式的使用,笔者会在后续的博文中详述),这里不采用。

编码实现

1. 功能实现用到的函数

   1: /**
   2:  * 抓取web数据,并以UTF-8格式返回结果
   3:  */
   4: function catchWebPage($url){
   5: $curl    = curl_init($url);
   6: curl_setopt($curl, CURLOPT_FAILONERROR,1);
   7: curl_setopt($curl, CURLOPT_FOLLOWLOCATION,1);
   8: curl_setopt($curl, CURLOPT_RETURNTRANSFER,1);
   9: curl_setopt($curl, CURLOPT_TIMEOUT,10);
  10: curl_setopt($curl, CURLOPT_BINARYTRANSFER,1);
  11: $r        = curl_exec($curl);
  12: curl_close($curl);
  13:  
  14: $r    = iconv('gb2312','utf-8',$r);
  15: //$r    = mb_convert_encoding($r, 'utf-8','gb2312');
  16: $r    = str_replace('
    
    ','',$r);
  17: $r    = str_replace('','
    
    ',$r);
  18: return $r;
  19: }
  20:  
  21: /**
  22:  * 统计出页面数量
  23:  */
  24: function catchProductPages($r) {
  25: $dom    = new DOMDocument();
  26: @$dom->loadHTML($r);
  27: $pages    = $dom->getElementsByTagName('em');
  28: foreach($pages as $page) {
  29:     $pageNo    = $page->nodeValue;
  30: }
  31: $pageNo    = substr($pageNo,1);
  32: return $pageNo;
  33: $dom->saveHTML();
  34: }
  35:  
  36: /**
  37:  * 使用DOM树方式处理并展示抓取结果
  38:  */
  39: function displayProduct($r) {
  40: $dom    = new DOMDocument();
  41: @$dom->loadHTML($r);
  42: $pages    = $dom->getElementsByTagName('em');
  43: foreach($pages as $page) {
  44:     $pageNo    = $page->nodeValue;
  45: }
  46: $pageNo    = substr($pageNo,1);
  47: $products    = $dom->getElementById('products');
  48: $productlist    = $products->getElementsByTagName('dl');
  49: foreach($productlist as $product){
  50:     $productName    = $product->getElementsByTagName('dd')->item(1)->getElementsByTagName('h3')->item(0)->nodeValue;
  51:     $productInfos    = $product->getElementsByTagName('dd')->item(1)->getElementsByTagName('ul')->item(0)->getElementsByTagName('li');
  52:     $productImage    = $product->getElementsByTagName('dd')->item(0)->getElementsByTagName('img')->item(0)->getAttribute('src');
  53:     $productPrice    = $product->getElementsByTagName('dd')->item(1)->getElementsByTagName('ul')->item(1)->getElementsByTagName('li')->item(1)->nodeValue;
  54:     echo "

",'',$productPrice,"","" style="float:left;"/>";

  55:     echo $productName,'

'
;
  56:     foreach($productInfos as $productInfo) {
  57:         echo '',$productInfo->nodeValue,'';
  58:     }
  59:     echo '

'
;
  60: }
  61: $dom->saveHTML();
  62: }

2. 数据提交表单

   1: 
   
   
"post" action= "<?=strip_tags($_SERVER['PHP_SELF']) ?>">
   2: 
  • "brand"> 3:
  • 4:
  • 5:
  •    6: 
  • "product"> 7:
  • 8:
  • 9:
  •   10: "submit" value="submit" />
      11: 

    3. 函数调用

       1: $brand    = $_POST['brand'];
       2: $proName= $_POST['product'];
       3:  
       4: $keyWord    = urlencode(iconv('utf-8','gb2312',$proName));
       5: $keyWord    = $brand.'+'.$keyWord;
       6: $url    = "http://www.newegg.com.cn/Product/ProductSearchAdvanced.aspx?keyWord={$keyWord}";
       7:  
       8: $r    = catchWebPage($url);
       9: displayProduct($r);
      10: $pageAll    = catchProductPages($r);
      11: for($i=2; $i< =$pageAll; $i++) {
      12:     $urlTemp    = $url.'&pageIndex='.$i;
      13:     $r        = catchWebPage($urlTemp);
      14:     displayProduct($r);
      15: }

          在使用DOM类时需要注意编码问题。新蛋网页是GB2312,cURL抓取后同样是GB2312,而DOM类默认只处理UTF-8格式编码。所以,使用cURL抓取后要转码。这部分可以参考Fwolf’s Blog《DOMDocument->loadHTML()处理中文的一点问题》,有很好解决方案。

          另外一个问题就是,curl默认只抓取当前页返回的数据,要想抓取所有数据,就需要获得页数,循环抓取每个分页的数据。具体可以参考第三部分代码。

    评论
    添加红包

    请填写红包祝福语或标题

    红包个数最小为10个

    红包金额最低5元

    当前余额3.43前往充值 >
    需支付:10.00
    成就一亿技术人!
    领取后你会自动成为博主和红包主的粉丝 规则
    hope_wisdom
    发出的红包
    实付
    使用余额支付
    点击重新获取
    扫码支付
    钱包余额 0

    抵扣说明:

    1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
    2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

    余额充值