scrapy架构上手简单,程序架构清晰,试过几个爬虫的程序感觉还是scrapy的程序架构功能强大,程序条理分明。
1、在当前目录下创建新的 Scrapy 项目,使用如下代码:
$scrapy startproject XXXXX(名称)
2、在当前目录中会新建一个名称也是 XXXXX(名称)的项目文件夹。文件夹的目录结构如下所示:
为了创建一个爬虫需新建一个XXX.py的文件(这里是spider.py)。
3、分析天津链家网特点(以获取某个区的数据为例):
可以看出天津河西区的首地址是https://tj.lianjia.com/ershoufang/hexi/,
为了爬取更多的数据,可以按标签来分别爬取,面积标签地址https://tj.lianjia.com/ershoufang/hexi/a1/,共有六个标签,a1-a6。
每个标签有若干页,每一页有至多30个房源信息。
4,爬取结构:
主程序架构:
主程序架构:
5,爬取结果
6、注意 由于每个标签的第一页地址是https://tj.lianjia.com/ershoufang/hexi/a1/,而不是由于每个标签的第一页地址是https://tj.lianjia.com/ershoufang/hexi/pg{}a1/的形式,采用循环时需注意。