【Python】zr_price爬虫

博主想查看北京租房价格变化趋势,未找到相关数据后在已有爬虫代码上改进。单页可爬取部分信息,但价格信息由CSS的background - position设定,涉及JS知识。因动态网页问题,正则匹配不到价格数据,图片命名无规律,无法从文本获取价格,最后考虑ORCing。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

这几天网上热议租房价格飙升,然后想查看北京租房价格的变化趋势,奈何没找到。

又开始找爬虫,但是也只是以前的,而且现在页面已经发生变化,于是在别人已有代码上进行改进。

2018-8-26

  1. 仅可以在单页爬取地址、描述、标签、图片等信息
  2. 价格信息是由CSS的background-position来设定的,而这一部分牵涉到JS(?)的知识。通过审查元素已经发现映射关系,后面需要提取出offset队列,进行映射即可取到数字

2018-8-27

昨晚写代码,发现<span style="background-position:-180px" class="num"></span> 这里面的数据是用正则匹配不到的,查找出来是空的,应该是动态网页的原因,单独又访问了一个页面得到的。

而之前所想的用script中的offset_unit值来映射price是没有办法直接实现的。

 

2018-8-28

看了一下,网页是调用一组无序0-9的图片,再根据像素位置截取图片,将价格拼在一起的。研究了一下图片的命名,没有发现规律,不能从文本上得到price信息。

头大。

考虑ORCing

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值