分享一个爬取B2B网站信息的程序 PHP版

最新推荐文章于 2025-04-17 10:13:06 发布

原创最新推荐文章于 2025-04-17 10:13:06 发布 · 930 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#PHP #爬虫

本文介绍了一个使用PHP编写的简单爬虫程序，该程序能够从指定的B2B网站抓取供应商联系信息。通过分析网页结构并利用正则表达式匹配，爬虫能够智能地处理不同编码格式的内容。

今天看到一篇java程序员菜鸟进阶（八）分享一个爬取B2B网站信息的程序,感觉那个网站没有那么复杂,一时手痒,就用PHP写了个

<?php

include_once('HttpClient.class.php');
//页码
if(isset($_GET['page']) && is_int($_GET['page'])){
$page=$_GET['page'];
}else{
$page=1;
}
//拼接URL
$url='http://product.cn.china.cn/suppliers/'.urlencode(iconv('utf-8','gb2312',$_GET['search'])).'/'.$page.'/';
//以HTTP的形式访问
$content = HttpClient::quickGet($url);
//查找具体联系方式页面地址
preg_match_all('/http:\/\/[a-zA-Z0-9]*\.cn\.china\.cn\/contact-information/i',$content,$urlArray,PREG_PATTERN_ORDER);

foreach($urlArray[0] as $url){
$in_charset='utf-8';
//获得详细信息
$content=HttpClient::quickGet($url);

//由于它有GBK与UTF-8两种编码方式,所以通过DIV来区分
$str_pos=strpos($content,'<div class="lxwm">');
if($str_pos===FALSE){
$str_pos=strpos($content,'<div class="rig-bd fl-clr">');
$in_charset='gbk';
}
//解析详细信息表格
$end_pos=strpos($content,'</div>',$str_pos);
$length=$end_pos - $str_pos;
//输出
echo iconv($in_charset,'gbk',substr($content,$str_pos,$length));
}
?>