需求:
1,获取所有的城市URL
2,获取所有城市》新房URL
3,获取所有城市》二手房URL
代码逻辑:
》》基本创建,start.py启动文件
from scrapy import cmdline
cmdline.execute("scrapy crawl sfw".split())
》》middlewares.py -->随机请求头中间件
》》spiders-->fang6.py
#允许爬取的域名范围
allowed_domains = ['fang.com']
(1)def A(self,response):
获取所有地区名、链接
(2)def B(self,response):
获取地区--新房--名字、价格等所有数据
(3)def C(self,response):
获取地区--2手房--名字、价格等所有数据
》》items-->fang6.py连接,
》》items: 写要爬取范围名称
fang6:导入items.py,调用
from fang.items import (class)
item = NewHouseItem(name=name,rooms=rooms)
》》pipelines-->数据存储
def __init__(self):
def process_item(self, item, spider):
def close_spider(self):
》》
本文介绍了一个具体的爬虫项目案例,旨在从大型房地产网站中抓取全国各城市的房产信息,包括新房和二手房的数据。项目使用Scrapy框架,通过定义特定的中间件、爬虫逻辑和数据项,实现了对不同城市房产数据的有效抓取与存储。
2108

被折叠的 条评论
为什么被折叠?



