今天先从实操作来讲述采用scrapy来实现对csdn博客的爬取,后续慢慢剖析scrapy爬虫的原理和结构。
1)环境搭建
首先安装scrapy
pip install scrapy
其他库依据需要自动进行安装
2)新建项目
scrapy startproject csdn_blog
执行完毕后,在该执行目录下,将生成一个名为"csdn_blog"的目录
该目录的结构如下所示
3) 新建爬虫
命令如下:
scrapy genspider csdn_spider www.youkuaiyun.com
该命令将在csdn_blog/spiders目录下新建一个csdn_spider.py的文件,
具体内容如下
import scrapy
class CsdnSpiderSpider(scrapy.Spider):
name = 'csdn_spider'
allowed_domains = ['www.youkuaiyun.com