Scrapy的使用

最新推荐文章于 2020-12-07 08:32:00 发布

原创最新推荐文章于 2020-12-07 08:32:00 发布 · 1.9k 阅读

1 ·

CC 4.0 BY-SA版权

爬虫专栏收录该内容

4 篇文章

订阅专栏

Scrapy算是装好了，怎么用呢？

1、Scrapy使用——抓取赶集网北京公交信息（http://wwwdigger.com/?p=111）

2、Scrapy 轻松定制网络爬虫（http://blog.pluskid.org/?p=366）

3、Scrapy入门教程 http://www.cnblogs.com/txw1958/archive/2012/07/16/scrapy-tutorial.html

我在测试的时候，碰到两个问题：

1、输入 scrapy crawl gjbus 提示出错，找不到该crawl命令（使用了上述文档1的方法）

解决方法：进入所创建的爬虫项目的目录，便能执行这个命令

2、出现了ImportError: Error loading object 'scrapy.core.downloader.webclient.ScrapyHTTPClientFactory': No module named win32api

解答的方法是：出现No module named win32api异常，到这里下载对应版本的安装模块http://starship.python.net/crew/mhammond/downloads/

我下载了pywin32-217.win32-py2.7.exe，执行后便解决了这个问题。

我将文章1（Scrapy使用——抓取赶集网北京公交信息（http://wwwdigger.com/?p=111））实验了一次，得到了满意的结果。但同时也有了一个新的问题，就是难道我们去做爬虫的时候，还要去先研究目标网站的路径吗？

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

streamind_xd

关注关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
1
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

【Python爬虫必备—＞Scrapy框架快速入门篇——上】

孤寒者的博客

08-09

64万+

【Python爬虫必备—＞Scrapy框架快速入门篇——上】

scrapy使用cookie和form表单模拟登陆

克里斯蒂亚诺更新的博客

07-25

431

对应的php服务器端代码：(特别注意：login.php之后是直接进入my.php，所以爬虫文件不需要再进入my.php去获取数据，而直接在前往login.php之后直接根据返回的页面进行获取数据)当用户登陆成功后，会在浏览器端保存一个cookie的值，有了这个值，就可以不用每次都进行登陆，就可以直接访问个人页面了。新建爬虫文件：（将cookie放在temp中，并且循环得到 json格式的内容并通过scrapy.Request发送）登陆后，进入个人页面：（假设我想获取余额这个值）

1 条评论您还未登录，请先登录后发表或查看评论

scrapy-streamitem:对使用流语料库流项目的 Scrapy 支持

07-02

scrapy-streamitem 概述与工作Scrapy支持。包括以下内容： StreamItem : Scrapy Stream Item 定义。 streamitem.items.StreamItem StreamItemLoader ：用于 StreamItem 的StreamItem 。 streamitem.loaders.StreamItemLoader StreamItemExporter : Scrapy ItemExporter 到 .sc 文件。 streamitem.exporters.StreamItemExporter StreamItemFileFeedStorage ：Scrapy FileFeedStorage 来处理 .sc 文件。 streamitem.storages.StreamItemFileFeedStorage 流项目 Sc

Scrapy 轻松定制网络爬虫

weixin_33896726的博客

05-30

147

by pluskid 网络爬虫（Web Crawler, Spider）就是一个在网络上乱爬的机器人。当然它通常并不是一个实体的机器人，因为网络本身也是虚拟的东西，所以这个“机器人”其实也就是一段程序，并且它也不是乱爬，而是有一定目的的，并且在爬行的时候会搜集一些信息。例如 Google 就有一大堆爬虫会在 Internet 上搜集网页内容以及它们之间的链接等信息；又比如一些别有用心的爬虫...

【转】黄聪：Scrapy 轻松定制网络爬虫

yisa

04-25

420

转自：http://www.cnblogs.com/huangcong/archive/2011/09/01/2162603.html 网络爬虫（Web Crawler, Spider）就是一个在网络上乱爬的机器人。当然它通常并不是一个实体的机器人，因为网络本身也是虚拟的东西，所以这个“机器人”其实也就是一段程序，并且它也不是乱爬，而是有一定目的的，并且在爬行的时候会搜集一些信息。例如 Goo

python Scrapy 轻松定制网络爬虫

huaweitman的专栏

07-21

2752

网络爬虫（Web Crawler, Spider）就是一个在网络上乱爬的机器人。当然它通常并不是一个实体的机器人，因为网络本身也是虚拟的东西，所以这个“机器人”其实也就是一段程序，并且它也不是乱爬，而是有一定目的的，并且在爬行的时候会搜集一些信息。例如 Google 就有一大堆爬虫会在 Internet 上搜集网页内容以及它们之间的链接等信息；又比如一些别有用心的爬虫会在 Internet 上搜集

scrapy使用布隆过滤器实现增量爬取

01-20

scrapy使用布隆过滤器实现增量爬取之前看了很多关于scrapy-redis使用bloomfilter进行持久化存储进行url去重的例子，可是发现没有一种适用于scrapy，于是萌生了基于现有scrapy-redis-bloomfilter库进行改写的想法。 ...

(scrapy使用方法概要PDF

12-20

Scrapy使用1

08-08

在Windows环境下，使用Python3.7安装Scrapy时，可以通过命令`pip install scrapy`来进行安装。然而，有时可能会遇到安装失败的问题，提示需要VC14的库。这通常是因为Scrapy的某些依赖项，如Twisted，需要特定的编译...

scrapy爬取大文件方法

07-04

一个基于Python的爬虫解决方案，主要用于上传大文件。

Scrapy 框架几种request请求返回类型

peiwang245的博客

11-08

1823

requests scrapy.Request 返回类型 r = Request(url,callback = self.parse) r: <GET http://www.tjconstruct.cn/Zbgs/Index/1?type%20=%20sgzb> type(r) : scrapy.http.request.Request response O...

python从零学——scrapy初体验

JKX_geek的博客

03-03

276

个人博客导航页（点击右侧链接即可打开个人博客）：大牛带你入门技术栈 python从零学——scrapy初体验近日因为一些事情，需要从网上爬取一些东西，故而想通过使用爬虫来顺便学习下强大的python。现将一些学习中遇到的问题记录下来，以便日后查询 1. 开发环境的准备（本人windows10 x64） python的爬虫框架应该说是有挺多的了，使用scrapy也是因为它名气比较大啦...

网页中的信息抓取(stream)

yaoyaoopen的专栏

07-05

1584

一：网页更新我们知道，一般网页中的信息是不断翻新的，这也要求我们定期的去抓这些新信息，但是这个“定期”该怎么理解，也就是多长时间需要抓一次该页面，其实这个定期也就是页面缓存时间，在页面的缓存时间内我们再次抓取该网页是没有必要的，反而给人家服务器造成压力。就比如说我要抓取博客园首页，首先清空页面缓存，从Last-Modified到Expires，我们可以看到，博客园的缓存时间

Scrapy常见问题

李玺

03-08

6637

介绍下scrapy框架。 scrapy 是一个快速(fast)、高层次(high-level)的基于 python 的 web 爬虫构架，用于抓取web站点并从页面中提取结构化的数据。scrapy 使用了 Twisted异步网络库来处理网络通讯。为什么要使用scrapy框架？scrapy框架有哪些优点？它更容易构建大规模的抓取项目它异步处理请求，速度非常快它可以使用自动调节机制自动调整爬行...

Scrapy的学习——安装介绍

streamind_xd的专栏

09-27

898

Scrapy是一个用python实现的爬虫框架，爬虫有很多，比如著名的Heritrix、Nutch。应该是各有优缺点，但因我是一个初学者，从网上找了一些资料，发现Scrapy可以与Webkit集成，去爬一些JS下的内容（可参考：定向抓取漫谈），于是有了进一步学习的想法。先安装来试一试： 1 、Scrapy网站http://scrapy.org/

scrapy下载图片问题

wocan23的专栏

02-10

2555

1. get_media_requests方法调用一次 2.file_path方法调用二次2017-02-10 14:51:32 [scrapy] DEBUG: Crawled (200) (referer: None) 2017-02-10 14:51:32 [scrapy] DEBUG: File (downloaded): Downloaded file from referred

5分钟快速掌握 scrapy 爬虫框架

Python中文社区

12-07

362

1. scrapy简介scrapy是基于事件驱动的Twisted框架下用纯python写的爬虫框架。很早之前就开始用scrapy来爬取网络上的图片和文本信息，一直没有把细节记录下来。这段...

scrapy爬虫的几个案例

渣渣

10-25

3862

lz最近在学习scrapy爬虫框架，对于此框架，我自己用两个案例进行了实践，初步对这个框架掌握，就写一篇博客来记录下我的学习过程。一、我的环境 mac+python2.7.6+scrapy1.4.0版本。对于scrapy在mac中的安装过程就不做介绍了。二、爬取清华大学就业信息网的就业信息板块就业信息清华大学就业信息网网址： http://career.tsinghua.edu.c

scrapy 使用