看了一圈网上很多爬取链家数据的爬虫,但是由于链家已经把网页结构换掉了,所以原来的网上代码已经不能够使用,刚写了一个最新的爬虫,可以获取租房信息。
工具:
python3.6
scrapy 1.6.0 框架
vscode 编辑器
基础知识关于如何使用scrapy框架什么的就不说了,网上一搜一大堆。
说明:因为链家上面的数据排列并不是一样的,有的数据是缺失的,这就给数据获取造成很大麻烦。所以导致有的数据是不正确的,大部分都是没问题的。
下面是主要的spider代码
# -*- coding: utf-8 -*-
from scrapy import Spider, Request
from scrapy.selector import Selector
import requests
import re
from lxml import etree
import json
import time
from szhouse.items import SzhouseItem
class licaiSpider(Spider):
name = 'lianjiahouse' #https://su.lianjia.com/zufang/pg3/#contentList
start_urls=['https://su.lianjia.com/zufang/']
custom_settings = {'ITEM_PIPELINES': {
'szhouse.pipelines.SzhousePipeline': 300,
}, 'DOWNLOAD_DELAY': 0.1,'DOWNLOAD_TIMEOUT':20}
def parse(self,response):
#detail_html=str(response.body)
item = SzhouseItem()
trs = response.xpath(

最低0.47元/天 解锁文章
5790

被折叠的 条评论
为什么被折叠?



