分布式爬虫--房天下数据采集 1、目标网址:https://www.fang.com/SoufunFamily.htm2、提取城市下面的新房与二手房链接3、进入新房的页面4、进入二手房的页面 1、目标网址:https://www.fang.com/SoufunFamily.htm 目标:爬取该网站下所有城市的新房与二手房的详细信息 2、提取城市下面的新房与二手房链接 进去某个城市页面后,提取新房与二手房的链接,然后进入到下一个页面再进行提取数据 3、进入新房的页面 提取新房页面的以下内同: 省份、城市、小区名字、价格、几居、面积、地址、行政区、是否在售、详情页面的url 4、进入二手房的页面 提取二手房页面的以下内同: 省份、城市、地址、小区名字、房子信息、详情页面的url