可运行的最新的使用scrapy框架爬取链家租房数据

看了一圈网上很多爬取链家数据的爬虫,但是由于链家已经把网页结构换掉了,所以原来的网上代码已经不能够使用,刚写了一个最新的爬虫,可以获取租房信息。

工具:

python3.6

scrapy 1.6.0 框架

vscode 编辑器

 

基础知识关于如何使用scrapy框架什么的就不说了,网上一搜一大堆。

说明:因为链家上面的数据排列并不是一样的,有的数据是缺失的,这就给数据获取造成很大麻烦。所以导致有的数据是不正确的,大部分都是没问题的。

下面是主要的spider代码

# -*- coding: utf-8 -*-
from scrapy import Spider, Request
from scrapy.selector import Selector
import requests
import re
from lxml import etree
import json
import time
from  szhouse.items import  SzhouseItem


class licaiSpider(Spider):
    
    name = 'lianjiahouse'  #https://su.lianjia.com/zufang/pg3/#contentList
    start_urls=['https://su.lianjia.com/zufang/']

    custom_settings = {'ITEM_PIPELINES': {
       'szhouse.pipelines.SzhousePipeline': 300,
    }, 'DOWNLOAD_DELAY': 0.1,'DOWNLOAD_TIMEOUT':20}
    def parse(self,response):
        #detail_html=str(response.body)
        item = SzhouseItem()
        trs = response.xpath(
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值