用python抓取津房置换的房屋挂牌交易数据

本文介绍了如何利用Python的requests和HtmlParser库抓取津房置换网站的公产房挂牌交易数据,详细讲解了处理cookie、解析HTML及定时请求的关键步骤,适合初级Python开发者参考。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

    天津所有的公产房的交易都要通过这个网站来摘牌挂牌,本人因为房屋交易的需要,想抓取这个网站每天的挂牌公产房信息。这对于python的老手来说根本就是个小case,但本人之前只是python学了个入门教程,手写了个抓svn提交数据的python脚本,怎么抓互联网的信息还没尝试过,不过码农的一个特质就是爱折腾嘛,尝试着从0开始,花了2个晚上的下班时间搞定。下面记录下关键步骤,希望对跟我有类似需求的同学有帮助。这里没有选择scrapy这种功能很全的抓取框架,我觉得需求没有那么复杂,搜了下用requests应该就足够了

    1.确定要抓取信息的网站的真实地址并用代码能正确访问。

       打开津房置换首页www.jfzh.com.cn,进入右下角服务E栈-->公产房摘挂牌公示(http://www.jfzh.com.cn/jf/gongfang),然后你会看见几个按钮,点击第一个“挂牌期间显示”,会看到出来个小窗口,里面显示着挂牌出售的公产房的信息,每22s会刷新一次。 在这个小窗口按F12,能在标题栏看到它的真实地址www.jfzh.com.cn:8018/guapaiqijianxianshi.aspx。但是你如果在python里面直接requests.get这个地址,是会报错的。在http://www.jfzh.com.cn/jf/gongfang页面按F12,看了下“挂牌期间显示”这个按钮的源码,就是一个很简单的window.open函数。python之所以直接get会无法访问应该是请求的header里少了cookie或者其他的信息,所以想抓个包看看少哪些东西,但是chrome的F12在点击“挂牌期间显示”之后根本看不到什么内容:

无奈正准备下个专门的抓包软件,忽然又想到还有个默认的ie(win10叫edge),死马当活马医试试看吧。这个时候不得不说微软立功了!在这一刻它是比google的chrome好用的:

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值