
爬虫
文章平均质量分 52
小强的呼呼呼
机器学习爱好者
展开
-
Scrapy爬取图片并保存
Scrapy提供了一个 item pipeline ,来下载属于某个特定项目的图片,比如,当你抓取产品时,也想把它们的图片下载到本地。本文接豆瓣top250电影,爬取海报图片。 一、ImagesPipeline的工作流程首先在爬虫项目中获取图片的image_urlsitem[‘image_urls’]进入管道中当项目进入 ImagesPipeline,image_urls 组内的URLs将原创 2017-07-02 17:46:41 · 12870 阅读 · 4 评论 -
Scrapy教程(一)爬取豆瓣top250电影
一、介绍个人最近学习scrapy的一个练手项目,因为是爬取静态网页比较简单,不过还是基本熟悉了用scrapy进行爬虫的流程。爬取的是豆瓣top250的电影名称,导演,评分等。二、代码解析首先创建初始爬虫项目, cd到想保存的目录,然后在命令行中输入$ scrapy startproject top250然后我们开始更改item.py文件,代码如下import scrapyclass Top250原创 2017-07-02 16:06:14 · 1436 阅读 · 0 评论 -
使用Scrapy实现模拟登录的方法
许多网站都会要求先登录才能获取内容,所以必须要学会如何实习模拟登录,这里介绍使用Scrapy实现模拟登录的两种方法。目前还没试过自动识别验证码,所以以下的验证码都是需要手动输入的一、使用Scrapy直接登录首先用Chrome打开知乎的登录界面,随便输入错误的账号和密码。 第一步我们先想想怎么获取验证码,页面点右键,点击“检查元素->network”, 我们刷新一下验证码,会看到出原创 2017-07-05 14:01:25 · 2214 阅读 · 0 评论