<马丁>关于爬虫脚本

        端午节前自己写了一个爬取某网站关键字搜索结果下的所有图片的爬虫脚本,具体实现的原理大致就是利用正则匹配到图片所对应的地址,即img标签下的src 然后利用file_get_contents或者curl等方式get下来保存到本地,听起来挺简单,但具体做的时候还是有很多细节问题要解决的,因为要做一个类似的事情首先要分析所爬取的网站的规则是什么,不管是爬取图片还是调用对方的隐藏ajax接口等等,这都是要做的第一步,比如我所爬取的那个图片网站,是通过表单提交了一个get 还传了一个页码 那么这样我就能通过模拟url来获取所有搜索关键词下的页面  只需用一个循环让页码累加即可,比如这样

$page = 1;
while($page<42){
    $Info = file_get_contents("http://********/items/search?query=%E6%96%97%E5%9B%BE&p=".$page);
   
    $page = $page+1;
}

 这样就能获取到每一页,关于正则匹配   和如何保存到本地服务器自不必多说,  这种爬虫最关键的还是要根据目标网站的规则来设计。比如有的网站是用ajax触发的下拉分页,那你就要查看他的ajax发送的地址来处理数据。

转载于:https://my.oschina.net/guoying1024/blog/689979

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值