抓取并处理WEB页面数据（CURL/DOM）

最新推荐文章于 2018-10-31 18:05:14 发布

yaron_org_cn

最新推荐文章于 2018-10-31 18:05:14 发布

阅读量1.1k

点赞数

分类专栏： PHP编程文章标签： web 正则表达式数据结构 function url encoding

本文链接：https://blog.youkuaiyun.com/yaron_org_cn/article/details/5106926

版权

PHP编程专栏收录该内容

26 篇文章

订阅专栏

昨天面试，让写一个小脚本，抓取http://www.newegg.com.cn相关产品的数据。以下是笔者的实现思路。

笔者要从以下两方面入手分析：

1. 如何提交数据
首先是接受数据表单所在的页面，一般都是首页。其次，分析表单是通过POST还是GET提交数据，新蛋使用的是GET提交数据。最后，如果使用的是GET方法，那么需要找到参数所附的URL是什么，新蛋的是http://www.newegg.com.cn/Product/ProductSearchAdvanced.aspx。

2. 返回数据的结构
根据查看返回的源代码，笔者认为，新蛋返回的数据结构比较清晰。比如，产品列表块儿就有id标识，而产品标题使用h3标识，这些都方便了DOM解析。

经过笔者简单分析，用不到POST传递参数，那么FOPEN()/cURL/SOCKET均可实现数据抓取(三者区别笔者会在后续的博文中详述)，这里采用cURL技术；而数据的处理，可以使用正则表达式和DOM类来实现，由于数据结构清晰，使用DOM类足够，正则表达式同样可以做到，但是效率不高(关于正则表达式的使用，笔者会在后续的博文中详述)，这里不采用。

编码实现

1. 功能实现用到的函数

 
/** 
   
 * 抓取web数据，并以UTF-8格式返回结果 
   
 */ 
   
function catchWebPage($url){ 
   
$curl    = curl_init($url); 
   
curl_setopt($curl, CURLOPT_FAILONERROR,1); 
   
curl_setopt($curl, CURLOPT_FOLLOWLOCATION,1); 
   
curl_setopt($curl, CURLOPT_RETURNTRANSFER,1); 
   
curl_setopt($curl, CURLOPT_TIMEOUT,10); 
   
curl_setopt($curl, CURLOPT_BINARYTRANSFER,1); 
   
$r        = curl_exec($curl); 
   
curl_close($curl); 
   
  
   
$r    = iconv('gb2312','utf-8',$r); 
   
//$r    = mb_convert_encoding($r, 'utf-8','gb2312'); 
   
$r    = str_replace('
    
    ','',$r); 
   
$r    = str_replace('','
    
    ',$r); 
   
return $r; 
   
} 
   
  
   
/** 
   
 * 统计出页面数量 
   
 */ 
   
function catchProductPages($r) { 
   
$dom    = new DOMDocument(); 
   
@$dom->loadHTML($r); 
   
$pages    = $dom->getElementsByTagName('em'); 
   
foreach($pages as $page) { 
   
    $pageNo    = $page->nodeValue; 
   
} 
   
$pageNo    = substr($pageNo,1); 
   
return $pageNo; 
   
$dom->saveHTML(); 
   
} 
   
  
   
/** 
   
 * 使用DOM树方式处理并展示抓取结果 
   
 */ 
   
function displayProduct($r) { 
   
$dom    = new DOMDocument(); 
   
@$dom->loadHTML($r); 
   
$pages    = $dom->getElementsByTagName('em'); 
   
foreach($pages as $page) { 
   
    $pageNo    = $page->nodeValue; 
   
} 
   
$pageNo    = substr($pageNo,1); 
   
$products    = $dom->getElementById('products'); 
   
$productlist    = $products->getElementsByTagName('dl'); 
   
foreach($productlist as $product){ 
   
    $productName    = $product->getElementsByTagName('dd')->item(1)->getElementsByTagName('h3')->item(0)->nodeValue; 
   
    $productInfos    = $product->getElementsByTagName('dd')->item(1)->getElementsByTagName('ul')->item(0)->getElementsByTagName('li'); 
   
    $productImage    = $product->getElementsByTagName('dd')->item(0)->getElementsByTagName('img')->item(0)->getAttribute('src'); 
   
    $productPrice    = $product->getElementsByTagName('dd')->item(1)->getElementsByTagName('ul')->item(1)->getElementsByTagName('li')->item(1)->nodeValue; 
   
    echo "",'',$productPrice,"","" style="float:left;"/>";    
 
    echo $productName,'

'; 
   
    foreach($productInfos as $productInfo) { 
   
        echo '',$productInfo->nodeValue,''; 
   
    } 
   
    echo '
'; 
   
} 
   
$dom->saveHTML(); 
   
}

2. 数据提交表单

 
     1: 
   
    "post" action=
    
    "<?=strip_tags($_SERVER['PHP_SELF']) ?>">
   
     2:"brand">

       3: "sony">Sony

       4: "canon">Canon

       5: 
 
     6:"product">

       7:     "数码相机">数码相机

       8:     "笔记本">笔记本

       9: 
 
    10: "submit" value="submit" /> 
   
    11:

3. 函数调用

 
$brand    = $_POST['brand']; 
   
$proName= $_POST['product']; 
   
  
   
$keyWord    = urlencode(iconv('utf-8','gb2312',$proName)); 
   
$keyWord    = $brand.'+'.$keyWord; 
   
$url    = "http://www.newegg.com.cn/Product/ProductSearchAdvanced.aspx?keyWord={$keyWord}"; 
   
  
   
$r    = catchWebPage($url); 
   
displayProduct($r); 
   
$pageAll    = catchProductPages($r); 
   
for($i=2; $i< =$pageAll; $i++) { 
   
    $urlTemp    = $url.'&pageIndex='.$i; 
   
    $r        = catchWebPage($urlTemp); 
   
    displayProduct($r); 
   
}