这几天网上热议租房价格飙升,然后想查看北京租房价格的变化趋势,奈何没找到。
又开始找爬虫,但是也只是以前的,而且现在页面已经发生变化,于是在别人已有代码上进行改进。
2018-8-26
- 仅可以在单页爬取地址、描述、标签、图片等信息
- 价格信息是由CSS的background-position来设定的,而这一部分牵涉到JS(?)的知识。通过审查元素已经发现映射关系,后面需要提取出offset队列,进行映射即可取到数字
2018-8-27
昨晚写代码,发现<span style="background-position:-180px" class="num"></span> 这里面的数据是用正则匹配不到的,查找出来是空的,应该是动态网页的原因,单独又访问了一个页面得到的。
而之前所想的用script中的offset_unit值来映射price是没有办法直接实现的。
2018-8-28
看了一下,网页是调用一组无序0-9的图片,再根据像素位置截取图片,将价格拼在一起的。研究了一下图片的命名,没有发现规律,不能从文本上得到price信息。
头大。
考虑ORCing
北京租房价格爬虫代码改进难题

博主想查看北京租房价格变化趋势,未找到相关数据后在已有爬虫代码上改进。单页可爬取部分信息,但价格信息由CSS的background - position设定,涉及JS知识。因动态网页问题,正则匹配不到价格数据,图片命名无规律,无法从文本获取价格,最后考虑ORCing。
1万+

被折叠的 条评论
为什么被折叠?



