环境要求:
php7及以上
phantomjs引擎 下载地址
QueryList4.0
核心思想:
根据抓取对象网页的布局,编写相应的规则,规则语法参考jquery即可。
抓取示例:
京东商城产品列表
抓取规则:
//京东商城采集规则配置
$rules = array(
'product_list' => array(
'url' => 'https://list.jd.com/list.html?cat=670,671,672',
'range' => '.gl-item .j-sku-item',
'rules' => array(
'link' => array('.p-img a','href'),
'image' => array('.p-img a img','src'),
'lazyImage' => array('.p-img a img','data-lazy-img'),
'name' => array('.p-name a em','text'),
'price' => array('.p-price .J_price:eq(0) i','text')
),
'desc' => '产品列表'
)
);
return $rules;
抓取结果: