python3爬虫之安装和使用scrapy

本文详细介绍了在Win10环境下使用Python3.6搭建Scrapy爬虫环境的步骤,包括安装必要依赖如lxml、zope.interface、wheel、twisted、pyOpenSSL、pywin32和scrapy等。同时,讲解了如何创建Scrapy项目、定义爬虫模板以及运行爬虫的方法。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

环境:win10-64位、python3.6

安装依赖

  1. 安装lxml
    pip install lxml

  2. 安装zope.interface
    pip install zope.interface

  3. 安装wheel
    pip inatall wheel

  4. 安装twisted
    在网站:https://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted
    下载对应的twisted安装即可。(cp36表示Python36,win_amd64表示windows64位。)
    pip install Twisted-18.9.0-cp36-cp36m-win_amd64.whl
    ps:此命令是在Twisted-18.9.0-cp36-cp36m-win_amd64.whl所在的目录下执行的。

  5. 安装pyOpenSSL
    pip install pyOpenSSL

  6. 安装pywin32
    pip install pywin32

安装scrapy

pip install scrapy
到此scrapy安装成功。

创建Scrapy项目

scrapy startproject xiaozhu

Scrapy文件介绍

items.py
定义爬取字段

piplines.py
爬虫数据处理, 入库

settings.py
项目设置

myspider.py
用户自建文件, 编写爬虫逻辑

创建爬虫模板

通过genspider命令,传入爬虫名、域名以及可选的模板参数,就可以生成初始模板 。
默认用的是basic,我们可以通过命令查看所有的模板

>scrapy genspider -l
Available templates:
  basic
  crawl
  csvfeed
  xmlfeed

当我们创建的时候可以指定模板,不指定默认用的basic,如果想要指定模板则通过
scrapy genspider -t 模板名字 爬虫名 域名

cd example  # 进入项目主目录
scrapy genspider -t crawl xiaozhuspider www.xiaozhu.com 
# 或者
scrapy genspider spidername example.webscraping.com  --template=crawl

Scrapy爬虫运行

第一种方式:命令行

scrapy crawl xiaozhuspider

第二种方式:py文件

在爬虫项目主目录下创建main.py,文件名可自定义。

from scrapy import cmdline

command = 'scrapy crawl xiaozhuspider'
cmdline.execute('scrapy crawl xiaozhuspider'.split())

运行此文件即可启动爬虫。

-s参数:指定日志级别和启动暂停爬虫
scrapy crawl xiaozhuspider -s LOG_LEVEL=INFO -s JOBDIR=craws/country


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值