转载请注明作者和出处:https://blog.youkuaiyun.com/lettmefly
运行平台:Windows
Python版本:Python 3.7
IDE:Pycharm
目录
1. 引言
本章仅介绍Scrapy的基础,学习目标是:掌握创建Scrapy项目的方法,把一个已经准备好的Spider玩转起来。
2. 创建项目
在开始爬取之前,必须创建一个新的Scrapy项目。在命令行模式下(cmd),进入打算存储和运行爬虫代码的目录中,运行下列命令:
cd /D E:\scrapy
scrapy startproject tutorial
在E:\scrapy目录中多了一个tutorial文件夹,其中包含下列内容:
tutorial/
scrapy.cfg # 项目的配置文件
tutorial/ # 项目的Python模块,之后你将在次加入代码
_init_.py
items.py # 项目的items文件
middlewares.py # 项目的middleswares文件
pipelines.py # 项目的pipelines文件
settings.py # 项目的settings文件
spiders/ # 放置spider的目录
_init_.py
3. 编写Spider
以下为我的第一个Spider代码,保存在tutorial/spiders目录下的csdn_spider.py文件:
import scrapy
class CsdnSpider(scrapy.Spider):
name = "csdn"
def start_requests(self):
url = 'https://www.youkuaiyun.com'
yield scrapy.Request(url=url, callback=self.parse)
def parse(self, response):
titles = response.xpath('//ul[@id="feedlist_id"]/li/div/div[1]/h2/a/text()').extract()
for title in titles:
print(title.strip())
4. How to run our Spider
在命令行模式下,进入项目的根目录,运行下列命令:
cd tutorial
scrapy crawl csdn
这个命令会启动我们刚添加的名为“csdn”的spider。命令行中得到以下输出:

从中可以看到打印出来优快云首页的文章标题。
本文详细介绍Scrapy爬虫的基础知识,包括如何在Windows环境下使用Python3.7和Pycharm创建Scrapy项目,编写并运行第一个Spider,以及如何从优快云网站抓取文章标题。
1万+

被折叠的 条评论
为什么被折叠?



