Python + PySpider 抓取百度图片搜索的图片

本文详细介绍了如何利用Python的PySpider库抓取百度图片搜索的高清图片。首先,介绍了环境配置,包括安装Python和PhantomJS,接着通过pip安装PySpider并验证安装。然后,展示了如何获取抓取链接,新建PySpider项目,并阐述了抓取思路。最后,详细讲解了如何在index_page中获取图片详情页地址,detail_page中获取图片地址并下载,以及保存图片的方法和工具类。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

说明

1、PySpider 是一个方便并且功能强大的Python爬虫框架
2、PySpider 依赖于PhantomJS
3、windows平台,PySpider 与64位的Python兼容不太好,需要使用32位Python
4、本文环境:Python3.5(32位)+PhantomJS2.1.1+PySpider 0.4.0

环境配置

  1. 安装Python(32位)
      下载地址:https://www.python.org/downloads/windows/
      下载Windows x86 executable installer后按指示安装,并将安装路径加入环境变量
  2. 列表内容
      下载地址:http://phantomjs.org/download.html
      下载后解压,并将bin目录放入环境变量(命令行phantomjs -v测试)
  3. 安装PySpider
      使用pip安装:命令行输入 pip install pyspider
      验证安装结果:
        安装完成后,命令行输入 pyspider all,然后浏览器访问http://localhost:5000
        如果正常出现PySpider页面,则说明安装成功

开始抓取

  1. 获取抓取链接
      在百度图片http://image.baidu.com/里随便输入搜索,将搜索结果页地址作为我们抓取的链接。我这里输入“猫咪”,然后获取到的链接是https://image.baidu.com/search/index?tn=baiduimage&ipn=r&ct=201326592&cl=2&lm=-1&st=-1&sf=1&fmq=&pv=&ic=0&nc=1&z=&se=1&showtab=0&fb=0&width=&height=&face=0&istype=2&ie=utf-8&fm=index&pos=history&word=%E7%8C%AB%E5%92%AA

  2. 新建PySpider项目
      命令行输入 pyspider all,然后浏览器访问http://localhost:5000
      点击右下角的“Create”按钮
    这里写图片描述

      输入项目名称和我们第一步获取到的URL
    这里写图片描述

      然后点击“Create”即可完成创建,并打开项目的编辑界面。具体使用方式请自行百度

评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值