Scrapy

本文详细介绍了如何解决在安装和运行Scrapy爬虫时遇到的错误,包括安装依赖库service_identity和pywin32,以及解决DLL加载失败的问题。

1. 安装

按照官方文档的安装指南,一步步走就行了。我安装在windows下
http://scrapy-chs.readthedocs.org/zh_CN/latest/intro/install.html#windows

2. 初探

还是官方文档,继续
http://scrapy-chs.readthedocs.org/zh_CN/latest/intro/tutorial.html

但是在运行爬虫程序的时候报错了,如下:

E:\Python Workspace\tutorial>scrapy crawl dmoz
:0: UserWarning: You do not have a working installation of the service_identity
module: 'No module named service_identity'.  Please install it from <https://pyp
i.python.org/pypi/service_identity> and make sure all of its dependencies are sa
tisfied.  Without the service_identity module and a recent enough pyOpenSSL to s
upport it, Twisted can perform only rudimentary TLS client hostname verification
.  Many valid certificate/hostname mappings may be rejected.
2015-05-28 11:23:20+0800 [scrapy] INFO: Scrapy 0.24.6 started (bot: tutorial)

根据提示,去下载和安装service_identity,地址为:https://pypi.python.org/pypi/service_identity#downloads,下载whl文件
使用pip安装:pip install service_identity-14.0.0-py2.py3-none-any.whl

再次运行,继续报错:

raise ImportError("Error loading object '%s': %s" % (path, e))
ImportError: Error loading object 'scrapy.core.downloader.handlers.s3.S3Download
Handler': DLL load failed: 找不到指定的模块。

需要安装pywin32,这里有个问题,在官网下载的安装时会报错,我使用了另一个之前下载的,版本号、大小完全一样,但安装没问题。

Scrapy是一个为了爬取网站数据、提取结构性数据而编写的应用框架,以下从不同方面介绍Scrapy相关信息: ### Scrapy日志系统 日志级别在Scrapy中具有重要意义,不同级别的日志信息反映了不同层次的程序运行状况。通过设置合适的日志级别,开发者可以过滤掉大量不必要的细节信息,只关注关键的运行状态和错误提示。这不仅可以提高开发效率,还有助于快速定位并解决潜在的问题。同时,合理的日志级别设置也有助于保护程序的敏感信息,避免信息泄露的风险。深入理解Scrapy的日志级别及其使用方法是每一个Scrapy开发者必须掌握的技能 [^1]。 ### Scrapy爬取淘宝商品信息案例 以爬取淘宝前60条商品的相关信息为例,需要编辑item文件,示例代码如下: ```python import scrapy class TmgoodsItem(scrapy.Item): # define the fields for your item here like: # name = scrapy.Field() good_price = scrapy.Field() good_name = scrapy.Field() good_url = scrapy.Field() shop_name = scrapy.Field() ``` 该代码定义了商品价格、名称、链接以及店铺名称等字段用于存储爬取的信息 [^2]。 ### Scrapy爬取电影网站信息案例 爬取电影网站相关信息时,首先要创建Scrapy项目。进入自己想进入的文件夹,在cmd窗输入 `scrapy startproject Movies - Spider` 创建scrapy工程。进入项目工程下的Spider目录,创建自己的spider文件,这样就创建好了Scrapy项目,并在相关文件夹中创建了一个 `Movies.py` 文件。在开始编写相关代码之前,需要关闭在scrapy工程文件中 `setting.py` 的服从 `robot.txt` 规则,改为不服从 [^3]。 ### 安装方法 通常可以使用pip来安装Scrapy,在命令行中输入以下命令即可完成安装: ```bash pip install scrapy ``` ### 使用指南 1. **创建项目**:使用 `scrapy startproject project_name` 命令创建一个新的Scrapy项目。 2. **定义Item**:在 `items.py` 文件中定义要爬取的数据结构。 3. **编写Spider**:在 `spiders` 目录下创建Spider文件,定义爬取的规则和逻辑。 4. **设置Pipeline**:在 `pipelines.py` 文件中处理爬取到的数据,如存储到数据库或文件。 5. **配置Settings**:在 `settings.py` 文件中配置项目的各种参数,如日志级别、下载延迟等。 6. **运行Spider**:使用 `scrapy crawl spider_name` 命令运行Spider开始爬取数据。
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值