昨天面试,让写一个小脚本,抓取http://www.newegg.com.cn相关产品的数据。以下是笔者的实现思路。
笔者要从以下两方面入手分析:
1. 如何提交数据
首先是接受数据表单所在的页面,一般都是首页。其次,分析表单是通过POST还是GET提交数据,新蛋使用的是GET提交数据。最后,如果使用的是GET方法,那么需要找到参数所附的URL是什么,新蛋的是http://www.newegg.com.cn/Product/ProductSearchAdvanced.aspx。
2. 返回数据的结构
根据查看返回的源代码,笔者认为,新蛋返回的数据结构比较清晰。比如,产品列表块儿就有id标识,而产品标题使用h3标识,这些都方便了DOM解析。
经过笔者简单分析,用不到POST传递参数,那么FOPEN()/cURL/SOCKET均可实现数据抓取(三者区别笔者会在后续的博文中详述),这里采用cURL技术;而数据的处理,可以使用正则表达式和DOM类来实现,由于数据结构清晰,使用DOM类足够,正则表达式同样可以做到,但是效率不高(关于正则表达式的使用,笔者会在后续的博文中详述),这里不采用。
编码实现
1. 功能实现用到的函数
1: /**
2: * 抓取web数据,并以UTF-8格式返回结果
3: */
4: function catchWebPage($url){
5: $curl = curl_init($url);
6: curl_setopt($curl, CURLOPT_FAILONERROR,1);
7: curl_setopt($curl, CURLOPT_FOLLOWLOCATION,1);
8: curl_setopt($curl, CURLOPT_RETURNTRANSFER,1);
9: curl_setopt($curl, CURLOPT_TIMEOUT,10);
10: curl_setopt($curl, CURLOPT_BINARYTRANSFER,1);
11: $r = curl_exec($curl);
12: curl_close($curl);
13:
14: $r = iconv('gb2312','utf-8',$r);
15: //$r = mb_convert_encoding($r, 'utf-8','gb2312');
16: $r = str_replace(' ','',$r);
17: $r = str_replace('',' ',$r);
18: return $r;
19: }
20:
21: /**
22: * 统计出页面数量
23: */
24: function catchProductPages($r) {
25: $dom = new DOMDocument();
26: @$dom->loadHTML($r);
27: $pages = $dom->getElementsByTagName('em');
28: foreach($pages as $page) {
29: $pageNo = $page->nodeValue;
30: }
31: $pageNo = substr($pageNo,1);
32: return $pageNo;
33: $dom->saveHTML();
34: }
35:
36: /**
37: * 使用DOM树方式处理并展示抓取结果
38: */
39: function displayProduct($r) {
40: $dom = new DOMDocument();
41: @$dom->loadHTML($r);
42: $pages = $dom->getElementsByTagName('em');
43: foreach($pages as $page) {
44: $pageNo = $page->nodeValue;
45: }
46: $pageNo = substr($pageNo,1);
47: $products = $dom->getElementById('products');
48: $productlist = $products->getElementsByTagName('dl');
49: foreach($productlist as $product){
50: $productName = $product->getElementsByTagName('dd')->item(1)->getElementsByTagName('h3')->item(0)->nodeValue;
51: $productInfos = $product->getElementsByTagName('dd')->item(1)->getElementsByTagName('ul')->item(0)->getElementsByTagName('li');
52: $productImage = $product->getElementsByTagName('dd')->item(0)->getElementsByTagName('img')->item(0)->getAttribute('src');
53: $productPrice = $product->getElementsByTagName('dd')->item(1)->getElementsByTagName('ul')->item(1)->getElementsByTagName('li')->item(1)->nodeValue;
54: echo "",'',$productPrice,"","
" style="float:left;"/>";
55: echo $productName,'
';
56: foreach($productInfos as $productInfo) {
57: echo '',$productInfo->nodeValue,'';
58: }
59: echo '';
60: }
61: $dom->saveHTML();
62: }
2. 数据提交表单
1:
2:
6:
10: "submit" value="submit" />
11:
3. 函数调用
1: $brand = $_POST['brand'];
2: $proName= $_POST['product'];
3:
4: $keyWord = urlencode(iconv('utf-8','gb2312',$proName));
5: $keyWord = $brand.'+'.$keyWord;
6: $url = "http://www.newegg.com.cn/Product/ProductSearchAdvanced.aspx?keyWord={$keyWord}";
7:
8: $r = catchWebPage($url);
9: displayProduct($r);
10: $pageAll = catchProductPages($r);
11: for($i=2; $i< =$pageAll; $i++) {
12: $urlTemp = $url.'&pageIndex='.$i;
13: $r = catchWebPage($urlTemp);
14: displayProduct($r);
15: }
在使用DOM类时需要注意编码问题。新蛋网页是GB2312,cURL抓取后同样是GB2312,而DOM类默认只处理UTF-8格式编码。所以,使用cURL抓取后要转码。这部分可以参考Fwolf’s Blog《DOMDocument->loadHTML()处理中文的一点问题》,有很好解决方案。
另外一个问题就是,curl默认只抓取当前页返回的数据,要想抓取所有数据,就需要获得页数,循环抓取每个分页的数据。具体可以参考第三部分代码。