scrapy入门实践—————爬取天津链家数据

本文介绍了使用Scrapy框架爬取天津链家二手房数据的步骤。首先通过`scrapy startproject`创建项目,然后分析天津河西区链家网页结构,发现数据分布在不同的面积标签页下。每个标签页有多个页面,每个页面包含最多30个房源信息。文章详细讲解了爬取过程中的主要程序架构,并展示了爬取结果。特别提醒,在处理数据时要注意不同标签页的URL规律,避免错误的循环方式。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

    scrapy架构上手简单,程序架构清晰,试过几个爬虫的程序感觉还是scrapy的程序架构功能强大,程序条理分明。 

    

    1、在当前目录下创建新的 Scrapy 项目,使用如下代码:

            $scrapy startproject XXXXX(名称)

   2、在当前目录中会新建一个名称也是 XXXXX(名称)的项目文件夹。文件夹的目录结构如下所示:

           为了创建一个爬虫需新建一个XXX.py的文件(这里是spider.py)。

  3、分析天津链家网特点(以获取某个区的数据为例):
 
          可以看出天津河西区的首地址是https://tj.lianjia.com/ershoufang/hexi/,
 
          为了爬取更多的数据,可以按标签来分别爬取,面积标签地址https://tj.lianjia.com/ershoufang/hexi/a1/,共有六个标签,a1-a6。
 
             每个标签有若干页,每一页有至多30个房源信息。
      4,爬取结构:

           主程序架构:

        主程序架构:
 

      5,爬取结果

                        

     6、注意   由于每个标签的第一页地址是https://tj.lianjia.com/ershoufang/hexi/a1/,而不是由于每个标签的第一页地址是https://tj.lianjia.com/ershoufang/hexi/pg{}a1/的形式,采用循环时需注意。


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值