只是闲来无事的时候做的这么一个小项目,只爬取了100页数据,获取到的数据,如下图所示:

仅展示一下spider页面:
# -*- coding: utf-8 -*-
import scrapy
class LianjiaSpider(scrapy.Spider):
name = 'lianjia'
allowed_domains = ['lianjia.com']
#初始url
start_urls = ['https://bj.lianjia.com/ershoufang/pg1']
def parse(self, response):
# with open('lianjia.html','wb')as f:
# f.write(response.body)
#匹配所有的li标签
li_cards = response.xpath('//li[@class="clear LOGCLICKDATA"]')
#遍历每一条li标签
for i in li_cards:
item = {}
item['title'] = i.xpath('./div/div/a/text()').extract_first()
item['houseInfo'] = i.xpath('./div/div[2]/div/a/text()').extract_first()
item[

这是一个使用Scrapy框架进行的小项目,爬取了链家网的100页数据。获取的数据包括房源信息,仅展示了spider页面,仅供学习交流,不应用于商业目的。
最低0.47元/天 解锁文章
636





