python房价_还在为买房发愁吗?5分钟教你用Python抓取热门房价信息

本文介绍如何使用Python抓取我爱我家网站上的成交房价信息。通过分析网页结构,解决异步加载的问题,获取小区ID,确定页面数量,并详细阐述抓取流程。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

这次换一个售房网站来练练手,爬取目标是我爱我家的成交记录。

f3a993b9fe0047b74d40bf4b09f44fd9.png爬取目标是我爱我家的成交记录

我爱我家的网站结构貌似比链家的要复杂一点点,它并没有像链家网一样,把成交记录单独分成一个版块,而是把每条成交记录按小区进行了汇总,一级界面显示成交均价,每条的成交价格需要进入各个小区的二级界面,继续往下拖动之后才能查看。

ff03dc5433ac307f5c89ced0ee925e9f.png

网页结构

e6b7bdfd1179ddc37a71b580f1300f8c.png

那么,我们想要爬取的每条成交价格,实则在二级界面的详细成交记录框内。

十五家园小区二级界面

以十五家园小区为例,分析一下二级界面的url。url中22700肯定就是该小区的ID,那么我们直接获取不同小区的ID后,对22700数值分别进行替换,就构建了所有小区的url列表,然后分别对不同的url进行请求,以获取每条成交价格行不行呢?结果应该是不行的。

在二级界面的成交框中,每一页只显示了4条成交记录,通过点击第接下来的几页,可以发现网址栏中的url仍然是,所以该成交框是通过异步加载完成的,相当于是另一个独立的网页内嵌在该小区的二级界面中。直接对二级界面的url进行请求,当然就获取不到成交框内的信息。

0b575415057a5f6df795dac5cd60e833.png

成交框

此处,我是通过抓包的方式来获取成交框的url。单击F12调出开发者工具,依次选择Network→Preserve log→点击第2页→选择Request URL。此处的Request URL应该就是成交框的真实url。

0f3f081082a2802ecff212b28d6e046b.png

抓包

成交框url5i5j是主域名,communityid=22700就是该小区的ID,page=2代表我们刚刚点击的第2页,communityname=%5%8...就是小区名称十五家园经过UTF-8转码后的表现形式。

一般情况下,如果直接将获取的这个url复制下来后并在另一个窗口中打开,应该是可以显示出我们想获取的成交框中的数据。但是此处,打开这个url却发现是一个空白页面,在python中利用requests库对该url进行请求,也获得不到任何数据。

3f16b11b9f036b897f22cc7f4294b4b1.png

Headers

于是尝试加入headers之后再进行请求。在F12的开发者界面中,将Request Headers下的信息添加进Headers之后,对成交框的url进行请求,发现可以正常显示出成交框内的信息。

73970159ab6e4aacf134c1bf8ae17342.png

加入Headers之后的请求

进一步对成交框的url进行分析,可以发现将&communityname=及以后的内容删掉,也可以正常获得数据;headers中的X-Requested-With: XMLHttpRequest则不能删除,否则就返回的是空白页。

到现在,对网页的分析已经基本完毕!

获取成交数据的大致方向就是将URL: &page=2拆分为3部分第一部分/getdeals?,不用变第二部分communityId=22700,将22700替换成不同小区的ID第三部分page=2,将2换成不同的数值以代表不同的页面对构建的URL进行请求并获取数据问题一 如何知道各个小区的ID?

745b1fb006a241e2338329903ee04240.png

审查元素

在一级界面内对十五家园小区的名称进行审查元素后,发现ID是藏在了href中。

十五家园

因此只需要将一级界面中所有小区的ID通过xpath的方式抓取出来即可。

问题二 如何知道成交框有多少页?

加入headers对成交框的url进行请求,返回的成交框源代码的末尾处,通过对倒数第二个

标签进行抓取获得。

此处倒数第一个

标签是 "尾页",倒数第二个标签是 "6",即最大页面。

0726849dd32df9bbb12b2ec7e2cd28be.png

MaxPage

整理一下思路就是

2beaffda3414351060a60f0f244b7dec.png

但是在我爱我家的一级界面中最多只能显示12条小区信息,也就是说一个一级界面的url只能获取12个小区的ID,只有先获取了所有一级界面的URL,才能进一步获得所有小区的ID。

我爱我家一级界面URL/community/n1

再通过不断的点击下一页,可以发现n后面的数字就代表了页数。那么问题就简单了,直接对n后的数值不断的迭代,就获得了所有的一级界面url。

ef12972080f0dc00c56c198203b8a0e2.png

问题真这么简单吗?坑爹的发现,将n后的数值迭代到85时,就不能显示出小区信息了,也就是说通过这个方法只能获得84×15=1260条小区信息,然而总共有5000多条信息。

老办法,通过加入筛选条件,对小区进行分割,此处我还是选择了以价格为条件,人为的将每个条件下的小区数量控制在1260条以下。另外还选择了以行政区域为条件,因为在1万元以下的小区数量还是超过了1260条,因此我继续对其进行了分割。

#p1 [0,10000)#p2 [10000,15000)#p3 [15000,20000)#p4 [20000,25000)#p7 [70000,+∞)start_urls = [...........']

分割完毕之后,另一个问题是如何知道每个条件下的最大页面数量。我们知道,每1页最多只能显示12条小区,只要先知道在当前筛选条件下,一共有多少小区,就可以计算出有多少页。

b81e2a60be3043643365922c4a2b4759.png

最大小区数量

比如上面这个例子,一共有405个小区,那么就有405/12=33.75,向上取整即34页。

现在,整个流程已经清晰!

db041a9cb3983a0d2b7bbef256ebdd30.png

最大页面数X:用于构建所有一级的界面URL。例如community/xiacheng/p(1~X)ID Y和MaxPage Z用于构建该小区下的所有成交页面URL。例如xchange/getdeals?communityId=Y&page=(1~Z)对不同条件下的一级界面URL进行迭代至最大页数X,获取所有小区的ID,再对各个小区的成交框URL进行接待至最大页面数Z,抓取想要的信息即可。

作者:ISeeMoon(Python小白社区Python学习践行社群作品)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值