Scrapy框架官方网址:http://doc.scrapy.org/en/latest
安装
Windows 安装方式
• Python 2 / 3
• 升级pip版本:pip install –upgrade pip
• 通过pip 安装 Scrapy 框架pip install Scrapy
若出现报错ImportError: No module named win32api,需要pip install pypiwin32
Linux安装
• Python 2 / 3
• 安装非Python的依赖 sudo apt-get install python-dev python-pip libxml2-dev libxslt1-dev zlib1g-dev libffi-dev libssl-dev
• 通过pip 安装 Scrapy 框架 sudo pip install scrapy
创建项目
进入您打算存储代码的目录中,运行下列命令:
scrapy startproject tutorial
创建spider
进入spider目录输入以下命令:
scrapy genspider baidu www.baidu.com
定义Item
根据需要从目标网页获取到的数据对item进行建模:
import scrapy
class MyItem(scrapy.Item):
title = scrapy.Field()
link = scrapy.Field()
desc = scrapy.Field()
运行爬虫
在爬虫目录下新建manage.py
from scrapy import cmdline
cmdline.execute('scrapy crawl baidu'.split())
本文介绍Scrapy爬虫框架的安装步骤及基本使用方法,包括在Windows和Linux系统下的安装流程,创建项目和爬虫的具体命令,定义Item以存储爬取数据的方式,以及如何运行爬虫。
65万+

被折叠的 条评论
为什么被折叠?



